L’avenir de l’IA, dévoilé en direct

Regardez gratuitement les discours d’ouverture du Summit les 1er et 2 juin.

Les principes de données FAIR : un guide pour les équipes data des entreprises

Les principes de données FAIR fournissent aux équipes d’entreprise un moyen pratique, fondé sur des normes, de s’assurer que les données restent fiables, repérables et utilisables pour toutes les parties prenantes, sur tous les systèmes utilisés. En intégrant des métadonnées riches, des règles d’accès claires et une sémantique partagée, les entreprises peuvent transformer les données gouvernées en ressources réutilisables qui alimentent l’analytique, les partenariats et l’IA.

Principes de données FAIR
  • À quoi correspondent les principes de données FAIR ?
  • Les principes FAIR en détail
  • Mettre en œuvre les principes FAIR avec Snowflake
  • FAIR, gouvernance et réutilisation
  • Ressources

Les principes de données FAIR trouvent leur origine dans la recherche scientifique. Les programmes de données d’entreprise appliquent désormais ce même framework pour évaluer si les données et les métadonnées sont faciles à trouver, accessibles, interopérables et réutilisables. Ces exigences sont homogènes d’un contexte à l’autre : les produits de données gouvernées, l’analytique destinée aux partenaires et les jeux de données d’entraînement des IA dépendent tous de métadonnées qui décrivent la propriété, les identifiants, la traçabilité, les conditions d’accès, les licences et les contraintes de réutilisation. FAIR fournit aux équipes de gouvernance un vocabulaire commun pour définir et appliquer ces exigences à grande échelle.

À quoi correspondent les principes de données FAIR ?

Les principes de données FAIR sont un ensemble de normes conçues pour rendre les données faciles à trouver, accessibles, interopérables et réutilisables. Ces principes ont été publiés pour la première fois dans la revue Scientific Data en 2016 par Wilkinson et al., sous le titre « The FAIR Guiding Principles for scientific data management and stewardship ».

FAIR s’applique à la fois aux données et aux métadonnées, car la réutilisation dépend autant du contexte que de l’accès. Une table peut être accessible d'un point de vue technique. Mais si les utilisateurs ne connaissent ni la signification de ses colonnes, ni son origine, ni son propriétaire, ni les conditions qui en encadrent l’utilisation, ni l'historique de ses modifications, ils ne peuvent pas déterminer avec certitude si elle peut être utilisée en toute confiance. Selon FAIR, les métadonnées doivent intégrer ce contexte à la ressource elle-même.

FAIR diffère des frameworks de gouvernance des données axés sur les processus tels que DAMA-DMBOK ou DCAM. Ceux-ci peuvent définir des domaines, des modèles opérationnels, des rôles de gestion des données et des pratiques de maturité, tandis que FAIR repose sur des principes. Il décrit ce que des données bien gérées devraient être capables de prendre en charge, tout en laissant l’implémentation entièrement à la charge de l’entreprise, de la communauté ou de la plateforme.

Bien que FAIR ait vu le jour dans la gestion des données de recherche, son utilisation s’est élargie aux entreprises à mesure que celles-ci créent des produits de données réutilisables et des environnements de partage gouvernés. Le NIH encourage l’utilisation des principes FAIR dans les pratiques de gestion et de partage des données, et Horizon Europe a également émis des recommandations en faveur de l’utilisation de FAIR dans la gestion des données issues de la recherche scientifique. GO FAIR fournit des conseils et des réseaux d’implémentation pour les entreprises qui mettent ces principes en pratique.

Les principes FAIR en détail

FAIR est souvent résumé en quatre mots, mais le framework se compose de 15 critères mesurables. Chaque critère peut être évalué indépendamment, ce qui permet à une équipe de gouvernance de noter une ressource de données par rapport à des lacunes spécifiques plutôt que de traiter le caractère « FAIR » comme un vague label de qualité.

Principe Critère Exigence
Facile à trouver F1 Les données et les métadonnées disposent d’identifiants uniques et persistants, globalement.
Facile à trouver F2 Les données sont décrites par des métadonnées riches.
Facile à trouver F3 Les métadonnées incluent clairement l’identifiant des données qu’elles décrivent.
Facile à trouver F4 Les données et les métadonnées sont enregistrées ou indexées dans une ressource interrogeable.
Accessible A1 Les données et les métadonnées peuvent être récupérées grâce à leur identifiant, via un protocole de communication standardisé.
Accessible A1.1 Ce protocole est ouvert, gratuit et universellement implémentable.
Accessible A1.2 Ce protocole permet l’authentification et l’autorisation, le cas échéant.
Accessible A2 Les métadonnées restent accessibles, même si les données ne sont plus disponibles.
Interopérable I1 Les données et les métadonnées utilisent un langage formel, accessible et partagé pour la représentation des connaissances.
Interopérable I2 Les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR.
Interopérable I3 Les données et les métadonnées incluent des références qualifiées vers d’autres données et métadonnées.
Réutilisable R1 Les données et les métadonnées sont décrites richement, avec des attributs précis et pertinents.
Réutilisable R1.1 Les données et les métadonnées sont publiées avec une licence d’utilisation claire.
Réutilisable R1.2 Les données et les métadonnées incluent une provenance détaillée.
Réutilisable R1.3 Les données et les métadonnées respectent les normes communautaires pertinentes.
  • Les critères de facilité de recherche commencent par des identifiants et des métadonnées interrogeables. Une table, une vue ou un fichier a besoin d’un identifiant stable capable de survivre à une migration de système, un changement de nom ou un transfert d’une équipe à une autre. Il lui faut également suffisamment de métadonnées descriptives pour qu’un chercheur, un analyste ou une application puisse comprendre ce que représente l’actif avant d’en demander l’accès.
  • Les critères d’accessibilité ne signifient pas que chaque jeu de données doit être ouvert à tous. Les principes FAIR permettent l’authentification et l’autorisation : l’objectif est que les conditions d’accès soient explicites et techniquement prises en charge. Un jeu de données gouvernées peut nécessiter une approbation, un accès basé sur les rôles ou des contrôles contractuels, mais les utilisateurs et les systèmes doivent tout de même savoir comment fonctionne la récupération et quelles règles s’appliquent.
  • Les critères d’interopérabilité se concentrent sur le sens partagé. Une colonne nommée trial_id, par exemple, est plus facile à réutiliser lorsqu’elle est rattachée à un vocabulaire, un modèle de données ou une définition sémantique communs, et lorsque les références aux études, participants, instruments ou produits de données dérivés associés sont qualifiées plutôt qu’implicites.

C’est dans ces critères de réutilisabilité que les principes FAIR rendent le contexte de gouvernance explicite. Un produit de données ne peut pas être réutilisé en toute sécurité si les consommateurs n’en connaissent pas la licence, la provenance, les présomptions de qualité ou les normes applicables. Les principes FAIR exigent des équipes qu’elles documentent ce contexte afin qu’une autre personne ou un autre système puisse déterminer si les données sont adaptées à une nouvelle analyse, un nouveau modèle ou un nouveau flux de travail opérationnel.

Notez que pour les données autochtones, les principes FAIR sont souvent associés aux principes CARE pour la gouvernance des données autochtones : Avantage collectif, Autorité de contrôle, Responsabilité et Éthique. Les principes CARE complètent les principes FAIR en mettant l'accent sur les droits, les intérêts et l’utilisation des données, notamment lorsque cela a des conséquences pour les peuples et communautés autochtones.

Mettre en œuvre les principes FAIR avec Snowflake

Une plateforme data moderne peut aider les équipes à opérationnaliser plus efficacement les principes FAIR. Dans Snowflake, les capacités pertinentes couvrent le catalogage, la gouvernance, la collaboration, l’identité, l’interopérabilité et la traçabilité des données.

Facile à trouver

La facilité de recherche commence par des métadonnées interrogeables et connectées aux données qu’elles décrivent. Snowflake Horizon Catalog est conçu pour aider les équipes à gouverner et à découvrir les données dans Snowflake et dans des stockages externes tels que les Apache Iceberg tables, tout en prenant en charge la préservation des métadonnées et des règles d’accès dans les workflows de partage gouvernés. Selon les principes FAIR, cette démarche contribue directement aux objectifs couverts par F1 à F4 : identifier les données de manière unique, les décrire à l’aide de métadonnées, les enregistrer dans des catalogues et les rendre facilement découvrables.

Accessible

L’accessibilité repose sur une récupération standard et gouvernée plutôt que sur des copies ad hoc. Snowflake Secure Data Sharing permet aux fournisseurs de partager des données sans avoir à les copier dans de nombreux scénarios, ce qui permet aux consommateurs d’accéder rapidement aux données tout en laissant le contrôle au fournisseur. La Marketplace Snowflake étend ce modèle aux références publiées, qui connectent les utilisateurs à plus de 820 fournisseurs et plus de 3 400 données, agents et solutions SaaS intégrées, en direct et prêts pour l’IA.

L’accessibilité FAIR peut également contribuer à protéger l’accès aux données. Snowflake prend en charge OAuth 2.0 pour l’authentification et l’autorisation, et SCIM peut aider les administrateurs à gérer les utilisateurs et les groupes à partir d’un fournisseur d’identité. Ensemble, ces mécanismes permettent aux équipes data de rendre les modalités d'accès explicites, sans pour autant ouvrir largement l'accès aux données sensibles ou soumises à des restrictions.

Interopérable

Snowflake prend en charge les modèles de données structurées, semi-structurées et au format ouvert. Le format de table ouvert Apache Iceberg fournit une couche d’abstraction sur les fichiers de données stockés dans des formats ouverts. Snowflake prend également en charge l’interopérabilité d’Iceberg entre différents moteurs de calcul. Pour la mise en œuvre de FAIR, cela aide les équipes à maintenir une signification homogène pour les données et les métadonnées à travers les systèmes, les moteurs et les communautés.

Réutilisable

La réutilisation dépend du contexte qui accompagne les données. Snowflake Object Tagging permet aux équipes d’associer des balises aux objets Snowflake et de les interroger pour des opérations de gouvernance telles que l’audit et le reporting. La traçabilité des données de Horizon Catalog aide les utilisateurs à retracer les relations en amont et en aval, y compris les workflows de traçabilité au niveau des colonnes qui identifient les balises manquantes ou incohérentes.

Ces mécanismes soutiennent l’aspect réutilisable de FAIR : licences claires, provenance, contexte d’utilisation, attributs de politique et métadonnées spécifiques à la communauté. Un produit de données publié via la Marketplace Snowflake, par exemple, peut être associé à des modèles de métadonnées alignés sur FAIR afin que les consommateurs puissent découvrir l’actif, comprendre ses exigences d’accès, évaluer sa provenance et le réutiliser dans des conditions documentées.

FAIR, gouvernance et réutilisation

La valeur pratique des principes de données FAIR est qu’ils rendent la réutilisation plus concrète. Un data steward peut voir si un jeu de données possède un identifiant persistant, si ses métadonnées sont interrogeables, si l’accès fonctionne via un protocole standard, si ses vocabulaires sont partagés, si sa licence est claire et si sa provenance peut être retracée.

Ce niveau de précision prend une importance croissante à mesure que les données de recherche, les produits de données d’entreprise et les actifs destinés à l’IA circulent entre un nombre croissant d'utilisateurs et de systèmes. FAIR ne remplace pas les frameworks de gouvernance des données, les contrôles de sécurité ou l’examen éthique, mais il leur donne une base commune : des données et des métadonnées qui peuvent être trouvées, consultées, interprétées et réutilisées sans dépendre de la mémoire institutionnelle.

Where DataDoes More