?tape 2 | Caractériser et documenter les données produites
Produites au cours d’activités de recherche, les données se distinguent des publications scientifiques. Très liées aux pratiques disciplinaires, elles peuvent se présenter sous diverses formes (images, corpus, données d’observation, calculs, modèles de simulations, etc.).
En tant qu’éléments "probants", rappelle la directive européenne sur les données ouvertes du 20 juin 2019, elles occupent une place fondamentale dans le processus de recherche, puisqu’elles sont "nécessaires pour valider des conclusions et résultats".
On distingue communément plusieurs types de données :
Garantir la réplicabilité, l’interopérabilité, la réutilisation et la préservation des données de la recherche implique de correctement documenter ses données, c’est-à-dire de donner les informations nécessaires pour les trouver, les lire, les comprendre et les réutiliser. C’est un processus recommandé dès la phase de production des données, qu’elles aient vocation à être diffusées ou non. Ces informations permettant de caractériser les données produites sont appelées métadonnées, littéralement "données décrivant des données".
Les métadonnées peuvent être de différentes natures et varier selon les formats et disciplines. Leur contenu doit renseigner sur l’origine et le contexte de production des données (métadonnées administratives), les conditions de production (métadonnées techniques), les objectifs de la collecte et les références à sa période et à sa localisation (métadonnées scientifiques), les conditions d’accès et les modalités d’utilisation ou de réutilisation des données (métadonnées juridiques).
Les métadonnées peuvent être génériques ou spécifiques si elles s’attachent à un type de données ou à une discipline en particulier. Elles peuvent être saisies manuellement (ajout de mots-clés, tags règle de nommage, description sommaire, etc.) ou bien embarquées automatiquement lorsqu’elles sont générées par un appareil ou un logiciel source (horodatage, géolocalisation, paramètres d’imagerie, etc.). Une combinaison des deux est également possible.
Dans certaines disciplines, il existe des modèles de métadonnées standards et parfois des outils dédiés pour les générer. Le plus souvent, les entrep?ts de données proposent également des standards de métadonnées disciplinaires ou généralistes selon leur périmètre.
En tant qu’éléments "probants", rappelle la directive européenne sur les données ouvertes du 20 juin 2019, elles occupent une place fondamentale dans le processus de recherche, puisqu’elles sont "nécessaires pour valider des conclusions et résultats".
On distingue communément plusieurs types de données :
Les données d’observation | Données capturées en temps réel, généralement uniques et impossibles à reproduire (imagerie, astronomie, enquêtes, etc.) |
Les données expérimentales | Données obtenues à partir d’équipement de laboratoire, souvent reproductibles mais parfois à co?t élevé (chromatogramme, spectre RMN, RPE, etc.) |
Les données de simulation ou computationnelles | Données générées par des modèles informatiques ou de simulation, reproductibles si le modèle est bien documenté (modèle climato-, métrologique, économique, etc.) |
Les données dérivées ou compilées | Données issues d’un traitement ou de la combinaison de données "brutes" (TDM, bases de données, corpus, etc.). Reproductibles mais à fort co?t ou temps. |
Les données canoniques ou de référence | Accumulation de jeux de données validés ou revus par les pairs, mis à la disposition et admis comme référence (base génome ou cristallographique, archives numérisées, données INSEE, etc.) |
Le code informatique | Règle de transcription ou instruction décrite assignant à tout symbole un caractère ou une cha?ne de caractères univoque. |
Garantir la réplicabilité, l’interopérabilité, la réutilisation et la préservation des données de la recherche implique de correctement documenter ses données, c’est-à-dire de donner les informations nécessaires pour les trouver, les lire, les comprendre et les réutiliser. C’est un processus recommandé dès la phase de production des données, qu’elles aient vocation à être diffusées ou non. Ces informations permettant de caractériser les données produites sont appelées métadonnées, littéralement "données décrivant des données".
Les métadonnées peuvent être de différentes natures et varier selon les formats et disciplines. Leur contenu doit renseigner sur l’origine et le contexte de production des données (métadonnées administratives), les conditions de production (métadonnées techniques), les objectifs de la collecte et les références à sa période et à sa localisation (métadonnées scientifiques), les conditions d’accès et les modalités d’utilisation ou de réutilisation des données (métadonnées juridiques).
Les métadonnées peuvent être génériques ou spécifiques si elles s’attachent à un type de données ou à une discipline en particulier. Elles peuvent être saisies manuellement (ajout de mots-clés, tags règle de nommage, description sommaire, etc.) ou bien embarquées automatiquement lorsqu’elles sont générées par un appareil ou un logiciel source (horodatage, géolocalisation, paramètres d’imagerie, etc.). Une combinaison des deux est également possible.
Dans certaines disciplines, il existe des modèles de métadonnées standards et parfois des outils dédiés pour les générer. Le plus souvent, les entrep?ts de données proposent également des standards de métadonnées disciplinaires ou généralistes selon leur périmètre.
Pour aller plus loin
Débuter avec les métadonnées
- Fiche synthétique sur les standards de métadonnées (Doranum)
- Vidéo sur les schémas de métadonnées (Doranum)
Trouver des standards de métadonnées
- Le catalogue du Data Curation Center (DCC) britannique
- Le catalogue international des standards de métadonnées
Outils génériques de création de métadonnées
CONTACT
À télécharger
Sommaire des étapes
- ?tape 0 | Définir son projet : poser la problématique des données
- ?tape 1 | Rédiger un plan de gestion des données
- ?tape 2 | Caractériser et documenter les données produites
- ?tape 3 | Intégrer les exigences en matière d’éthique et de protection des données personnelles
- ?tape 4 | Stocker et partager ses données
- ?tape 5 | Décrire et diffuser ses données
- ?tape 6 | Préserver et archiver ses données
- ?tape 7 | Permettre la réutilisation et la visualisation des données
Mise à jour : 13 février 2024