Découverte des ensembles de données depuis le WIS2 Global Discovery Catalogue
Objectifs d'apprentissage !
À la fin de cette session pratique, vous serez capable de :
- utiliser pywiscat pour découvrir des ensembles de données depuis le Global Discovery Catalogue (GDC)
Introduction
Dans cette session, vous apprendrez à découvrir des données depuis le WIS2 Global Discovery Catalogue (GDC) en utilisant pywiscat, un outil en ligne de commande permettant de rechercher et de récupérer des métadonnées depuis un WIS2 GDC.
Actuellement, les GDC suivants sont disponibles :
- Environnement et Changement climatique Canada, Service météorologique du Canada : https://wis2-gdc.weather.gc.ca
- Administration météorologique de Chine : https://gdc.wis.cma.cn
- Deutscher Wetterdienst : https://wis2.dwd.de/gdc
Lors des sessions de formation locales, un GDC local est configuré pour permettre aux participants d'interroger le GDC pour les métadonnées qu'ils ont publiées depuis leurs instances de wis2box. Dans ce cas, les formateurs fourniront l'URL du GDC local.
Préparation
Note
Avant de commencer, veuillez vous connecter à votre machine virtuelle étudiante.
Installation de pywiscat
Utilisez l'installateur de paquets Python pip3
pour installer pywiscat sur votre machine virtuelle :
pip3 install pywiscat
Note
Si vous rencontrez l'erreur suivante :
WARNING: The script pywiscat is installed in '/home/username/.local/bin' which is not on PATH.
Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
Alors exécutez la commande suivante :
export PATH=$PATH:/home/$USER/.local/bin
...où $USER
est votre nom d'utilisateur sur votre machine virtuelle.
Vérifiez que l'installation a réussi :
pywiscat --version
Recherche de données avec pywiscat
Par défaut, pywiscat se connecte au Global Discovery Catalogue (GDC) hébergé par Environnement et Changement climatique Canada (ECCC).
Changer l'URL du GDC
Si vous effectuez cet exercice lors d'une session de formation locale, vous pouvez configurer pywiscat pour interroger le GDC local en définissant la variable d'environnement PYWISCAT_GDC_URL
:
export PYWISCAT_GDC_URL=http://gdc.wis2.training:5002
Pour voir les options disponibles, exécutez :
pywiscat search --help
Vous pouvez rechercher tous les enregistrements dans le GDC :
pywiscat search
Question
Combien d'enregistrements sont retournés par la recherche ?
Cliquez pour révéler la réponse
Le nombre d'enregistrements dépend du GDC que vous interrogez. Lors de l'utilisation du GDC de formation locale, vous devriez constater que le nombre d'enregistrements est égal au nombre d'ensembles de données qui ont été ingérés dans le GDC pendant les autres sessions pratiques.
Essayons d'interroger le GDC avec un mot-clé :
pywiscat search -q observations
Question
Quelle est la politique de données des résultats ?
Cliquez pour révéler la réponse
Toutes les données retournées devraient spécifier des données "core".
Essayez des requêtes supplémentaires avec -q
.
Tip
L'option -q
permet la syntaxe suivante :
-q synop
: trouver tous les enregistrements contenant le mot "synop"-q temp
: trouver tous les enregistrements contenant le mot "temp"-q "observations AND oman"
: trouver tous les enregistrements contenant les mots "observations" et "oman"-q "observations NOT oman"
: trouver tous les enregistrements contenant le mot "observations" mais pas le mot "oman"-q "synop OR temp"
: trouver tous les enregistrements contenant "synop" ou "temp"-q "obs*"
: recherche approximative
Lorsque vous recherchez des termes avec des espaces, utilisez des guillemets doubles.
Obtenons plus de détails sur un résultat de recherche spécifique qui nous intéresse :
pywiscat get <id>
Tip
Utilisez la valeur id
obtenue lors de la recherche précédente.
Conclusion
Félicitations !
Dans cette session pratique, vous avez appris à :
- utiliser pywiscat pour découvrir des ensembles de données depuis le WIS2 Global Discovery Catalogue