Intervenant : Xiaoou Wang, référent Huma-Num en Humanités numériques à la MSHS Sud-Est
Table des matières
Bonjour à toutes et à tous, et merci de venir aussi nombreux aujourd’hui.
Je me présente rapidement : je m’appelle Xiaoou Wang et je suis référent Humanités numériques à la MSHS Sud-Est.
Je me charge notamment de tout ce qui relève de l’application des outils numériques et de l’informatique aux problématiques en sciences humaines et sociales.
Aujourd’hui, le thème du webinaire est :
« Choisir un entrepôt de confiance : les principes FAIR en pratique avec Nakala »
Vous avez probablement déjà entendu parler des principes FAIR.
Aujourd’hui, l’idée n’est pas vraiment de refaire un grand discours sur le fait que les principes FAIR sont géniaux ou indispensables à la science ouverte.
Je voudrais plutôt qu’on regarde leurs implications très concrètes dans vos pratiques de recherche.
Dans un premier temps, on va essayer de comprendre ce qu’est un entrepôt de confiance.
Le Collège des données de la recherche a établi un ensemble de critères d’exclusion.
Tous ces critères ont vraiment pour objectif de garantir la qualité des dépôts.
Par exemple :
Toute cette liste sert finalement à trier les entrepôts présents sur Internet, parce qu’aujourd’hui ils existent en très grand nombre et avec des niveaux de qualité très variables.
Et évidemment, ces entrepôts doivent aussi répondre aux principes FAIR :
On va d’ailleurs s’attarder un peu plus longtemps sur la notion d’interopérabilité, parce que c’est souvent le critère le plus abstrait, mais aussi l’un des plus importants.
Il existe ce qu’on appelle des entrepôts thématiques.
Sur le portail Recherche Data Gouv, vous pouvez trouver des entrepôts correspondant à différentes disciplines ou champs scientifiques.
Cette liste a été triée et validée par le Collège des données de la recherche.
Vous pouvez faire des recherches par discipline, par domaine, et consulter les différents critères d’évaluation.
Et dans le cas où il n’existe pas d’entrepôt spécifique à votre discipline, il existe aussi des entrepôts généralistes, comme Recherche Data Gouv.
Si vous cliquez sur les descriptions détaillées, vous trouverez toutes les informations concernant :
Premièrement, pour garantir la pérennité des données.
Et deuxièmement — et c’est souvent le point le plus concret — pour garantir leur visibilité maximale.
Parce qu’effectivement, ces entrepôts servent ensuite à faire identifier et moissonner automatiquement les données par différents catalogues scientifiques.
On va maintenant passer à un exemple concret avec Nakala, qui est un entrepôt de confiance en sciences humaines et sociales, et que vous pouvez retrouver sur la liste de Recherche Data Gouv.
Pour accéder à Nakala, il faut d’abord obtenir ce qu’on appelle un HumanID.
La procédure est assez simple.
Il existe plusieurs moyens de l’obtenir, notamment via HAL.
Une fois connecté, vous arrivez sur le portail des services Huma-Num, où vous pouvez demander l’accès à Nakala.
L’identifiant HumanID est créé instantanément, mais l’accès effectif à Nakala peut prendre quelques jours, parfois jusqu’à deux semaines.
On va maintenant passer au premier principe FAIR :
Findable — trouvable
L’idée ici est que les données doivent être facilement retrouvables.
Le point le plus important est l’attribution d’un DOI, donc d’un identifiant pérenne unique.
Je vais prendre ici l’exemple d’un dataset issu de ma thèse.
Quand on ouvre le dataset, on voit immédiatement qu’il possède un DOI.
Pour déposer un dataset, les métadonnées obligatoires restent relativement limitées :
Mais dans la pratique, plus les métadonnées sont riches, plus les données seront visibles et faciles à retrouver.
Par exemple ici :
L’idée est vraiment de créer un réseau entre :
Je vais aussi montrer une mauvaise pratique que j’ai moi-même faite à la fin de ma thèse.
À l’époque, j’ai essayé de déposer mes datasets un peu partout.
Le problème, c’est qu’à chaque dépôt, un nouveau DOI est créé.
Et une fois créé, ce DOI continue d’exister.
Résultat :
Donc si vous avez déjà fait ce type d’erreur, il est important d’indiquer clairement quelle est la version canonique du dataset.
On va maintenant passer au principe :
Accessible — accessible
Ici, j’aimerais vraiment faire une nuance importante entre :
Quand les gens entendent « dépôt de données », ils pensent souvent que les données seront automatiquement ouvertes publiquement.
Mais ce n’est pas forcément le cas.
On peut choisir :
Dans l’exemple que je vais montrer :
L’idée est donc aussi de partager l’existence et la description des données sans forcément exposer directement leur contenu.
On arrive maintenant au principe :
Interoperable — interopérable
C’est probablement le principe le plus technique.
L’idée est de privilégier des formats ouverts :
Cela permet de garantir une meilleure pérennité et facilite les échanges entre logiciels.
Ensuite, il y a la question des vocabulaires contrôlés et des thésaurus.
L’objectif ici est d’utiliser des terminologies communes afin d’assurer une sémantique partagée.
Par exemple, sur FAIRsharing.org, on peut rechercher des thésaurus spécialisés selon les disciplines.
On trouve parfois des terminologies extrêmement spécifiques.
Il est aussi important d’utiliser des schémas de métadonnées normalisés.
Il existe plusieurs centaines de schémas de métadonnées, mais en SHS, des standards comme :
sont particulièrement utilisés.
Et on va voir pourquoi ces standards sont importants :
ils facilitent énormément l’interopérabilité et le moissonnage automatique.
Dans Nakala, ce qui se passe en coulisses, c’est que les métadonnées internes sont automatiquement transformées vers différents standards internationaux.
C’est ce qu’on appelle le mappage des métadonnées.
Concrètement :
vous déposez vos données une seule fois sur Nakala, puis elles peuvent être automatiquement moissonnées par différents catalogues scientifiques.
Par exemple :
Donc il suffit finalement de déposer les données à un seul endroit pour qu’elles soient ensuite visibles dans plusieurs moteurs de recherche scientifiques.
Et ici, j’insiste vraiment sur l’importance des métadonnées riches.
Plus les métadonnées sont détaillées et standardisées, plus le moissonnage automatique fonctionnera correctement.
Dans le cas où les métadonnées sont incomplètes, certaines plateformes risquent même de ne pas référencer les données.
Autre point intéressant :
certains catalogues réexposent ensuite les métadonnées dans d’autres formats.
Par exemple, DataCite réexpose les métadonnées en Schema.org, qui est le schéma privilégié par Google.
C’est ce qui explique pourquoi certains datasets deviennent visibles automatiquement dans Google Dataset Search.
Je voudrais aussi attirer votre attention sur un autre avantage de Nakala : NakalaPress.
L’idée est de valoriser les données via un site web statique généré automatiquement à partir du dataset.
Créer un site web prend normalement du temps, mais ici on peut générer quelque chose de relativement propre en quelques minutes seulement.
Dans mon cas, le site que je vais montrer a été réalisé en une dizaine de minutes.
On arrive maintenant au dernier principe :
Reusable — réutilisable
Ici, la question principale concerne les licences.
Je ne vais pas faire aujourd’hui une introduction complète aux différents types de licences, mais il faut savoir que chaque entrepôt propose des politiques différentes.
Par exemple :
Donc lorsqu’on choisit un entrepôt, il faut aussi regarder :
Nous approchons maintenant de la fin de cette présentation.
J’espère que ce webinaire vous aura permis de mieux comprendre :
Si vous avez des questions, n’hésitez pas à me contacter.
Pour toutes les questions liées au cycle de vie des données, vous pouvez également contacter le guichet Recherche Data de l’université.
Et j’en profite aussi pour faire une petite annonce concernant le prochain webinaire, qui portera sur l’anonymisation des données en sciences humaines et sociales.
Je présenterai notamment un outil que j’ai développé pour faciliter l’identification automatique des entités nommées :
L’outil permet ensuite :
Donc si le sujet vous intéresse, n’hésitez pas à venir au prochain webinaire.
Merci beaucoup pour votre attention, et merci encore pour votre participation.