L’avenir de l’IA, dévoilé en direct

Regardez gratuitement les discours d’ouverture du Summit les 1er et 2 juin.

Gouvernance des données

Guide pratique

Gouvernance des données : définition et enjeux stratégiques

Ce guide présente les cadres, les principes et les étapes concrètes nécessaires pour garantir la fiabilité, l’auditabilité et la scalabilité des données, y compris dans les environnements pilotés par l’IA.

Laurie MacPherson
Laurie MacphersonTechnical Writer, Snowflake
Tracy Kabuya
Tracy KabuyaContributeur local, Snowflake

DÉFINITION DE LA GOUVERNANCE DES DONNÉES

La gouvernance des données désigne l’ensemble des politiques, des rôles, des processus et des technologies qui garantissent une gestion, une protection et une utilisation cohérentes et responsables des données tout au long de leur cycle de vie, couvrant notamment la propriété, l’accès, la qualité, la classification et l’auditabilité.

Lorsqu’un incident de données survient (constat de non-conformité, modèle entraîné sur la mauvaise population, indicateur interprété différemment d’une équipe à l’autre), les entreprises se retrouvent souvent incapables de répondre aux questions suivantes. La propriété des données n’est pas clairement établie, la traçabilité est incomplète et les registres d’accès n’existent pas ou ne remontent pas assez loin dans le temps. Le problème finit alors par faire surface lors d’un contrôle réglementaire ou d’une revue post-incident.

La gouvernance des données consiste à mettre en place la propriété, la classification, la traçabilité et l’audit qui rendent ces réponses disponibles avant qu’elles ne soient demandées. À mesure que les données transitent entre les systèmes, les environnements cloud, les partenaires et les workflows d’IA, les exigences en matière de gouvernance continuent de croître. Dans la plupart des entreprises, obtenir des réponses concernant les données est bien plus difficile que cela ne devrait l’être. Ce guide vous explique comment y remédier.

Qu’est-ce que la gouvernance des données ?

La gouvernance des données désigne l’ensemble des politiques, des rôles, des processus et des technologies qui définissent la manière dont une entreprise gère les données tout au long de leur cycle de vie. Elle établit à qui appartiennent les données, ce qu’elles signifient, comment elles sont classifiées, qui peut y accéder, comment leur qualité est mesurée et comment leur utilisation est auditée. Concrètement, la gouvernance des données est un modèle opérationnel qui permet de garantir la fiabilité, la protection et l’exploitabilité des données à l’échelle.

Un programme de gouvernance des données mature apporte des réponses à quatre questions clés :

  • Quelles données existent et que signifient-elles ?
  • À qui appartiennent-elles et qui est garant de leur exploitation ?
  • Qui peut y accéder, les partager ou les exploiter dans des workflows d’IA ?
  • L’entreprise peut-elle justifier la façon dont elles ont été transformées, protégées et exploitées ?

Pour répondre à ces questions, il faut tenir compte des métadonnées, de l’intendance des données, de la qualité des données, des contrôles de confidentialité, des processus de conformité et d’une responsabilisation claire. Sans la synergie de ces composants, les équipes ne peuvent pas gouverner les données de manière fiable.

Pourquoi la gouvernance des données est importante

La gouvernance des données est devenue plus complexe car les données ne sont plus cloisonnées au sein d’un unique environnement de reporting. Une table d’usage produit peut ainsi alimenter des analyses, des workflows de support client, le reporting partenaires, des variables de machine learning et des tableaux de bord de direction. Une politique de gouvernance des données adaptée à un tableau de bord ne régit pas automatiquement chaque copie, transformation ou prompt d’IA en aval qui exploite ces mêmes données.

Cette fragmentation constitue l’un des principaux obstacles à une gouvernance efficace et à une IA évolutive. « Quand on conserve ses données à un endroit pour une chose, et à un autre endroit pour une autre, gouverner et sécuriser ces données devient vraiment difficile », explique Baris Gultekin, VP Product, AI chez Snowflake. Il fait valoir que l’investissement dans un socle de données unique et standardisé au sein de l’entreprise permet des cas d’usage plus puissants de l’IA générative tout en simplifiant la gouvernance et la sécurité.

Quote Icon

Quand on conserve ses données à un endroit pour une chose, et à un autre endroit pour une autre, gouverner et sécuriser ces données devient vraiment difficile.

Baris Gultekin
VP Product, AI à Snowflake

Pour que ce type de stratégie fonctionne dans la pratique, centraliser les données ne suffit pas : cela exige une gouvernance cohérente et évolutive. Les équipes doivent classifier les colonnes sensibles, définir les responsabilités, assurer la traçabilité, appliquer le masquage des données, surveiller la fraîcheur des données et auditer l’usage sans s’appuyer sur le savoir informel ou des feuilles de calcul éparpillées. Avec une gouvernance efficace, il est plus facile de trouver des données fiables et plus sûr de les utiliser, sans friction supplémentaire pour les équipes qui en ont besoin.

PIÈGE COURANT

Les organisations considèrent souvent la gouvernance des données comme un projet ponctuel, plutôt que comme une discipline opérationnelle permanente intégrée aux workflows quotidiens. Il en résulte un flou quant à la propriété des données, des métadonnées incomplètes et des contrôles qui ne se propagent pas à mesure que les données circulent entre les systèmes et les cas d’usage de l’IA. Cela rend les anomalies difficiles à retracer et complique le respect des exigences d’audit.

Gouvernance pour l’IA

L’IA soulève de nouveaux enjeux pour la gouvernance des données, car les données gouvernées peuvent désormais être extraites, synthétisées, transformées ou exploitées par des modèles et des agents. Lorsqu'un agent IA agit pour le compte d'un utilisateur, les questions se multiplient : quelles lignes a-t-il extraites, qu'a-t-il inclus dans un prompt et existe-t-il une piste d'audit pour tout cela ?

La gouvernance des données se concentre sur l’utilisation des systèmes de données et d'IA. Cela inclut la provenance des données d’entraînement ; la classification des informations personnelles identifiables (PII) et des données sensibles ; les contrôles du consentement et de l’utilisation autorisée ; le biais et la représentativité des données sources ; la traçabilité entre les jeux de données, les features, les prompts, les sorties et les décisions en aval ; et les contrôles d’accès des agents et les pistes d’audit pour la récupération, le contexte du prompt et les sorties générées.

Cela concerne la gouvernance de l’IA, mais ce n'est pas la même chose. La gouvernance des données pour l’IA régit les données que les systèmes d’IA utilisent. La gouvernance de l’IA régit le modèle ou le système lui-même : approbations de modèles, évaluations, fiches modèles, surveillance, dérive, supervision humaine et gestion des risques. Les deux programmes doivent se connecter. Un workflow d’IA à haut risque ne peut faire l’objet d’une gouvernance efficace si l’organisation ignore quelles sources de données l’alimentent, quels attributs sensibles peuvent apparaître lors de la restitution, qui a autorisé l’utilisation de ces données et si les résultats peuvent être tracés jusqu’à des sources gouvernées.

Voici comment Snowflake aide à gouverner les données pour une IA fiable :

Principes de la gouvernance des données

Les principes de gouvernance des données guident les choix d’un programme en matière de politiques, de propriété, de technologie et de processus. Les principes communs sont les suivants :

  • Responsabilisation : Chaque actif de données critique dispose d’un propriétaire désigné, responsable des décisions liées aux accès, aux anomalies de qualité et aux arbitrages des définitions.
  • Transparence : Les utilisateurs peuvent voir les définitions, la traçabilité, les signaux de qualité et le cadre réglementaire pour les actifs de données avec lesquels ils travaillent.
  • Qualité des données : Les données gouvernées sont évaluées au regard d’exigences explicites ; leur fiabilité ne saurait être simplement présumée.
  • Sécurité et confidentialité des données : Les données sensibles sont classifiées, protégées et contrôlées tout au long de leur cycle de vie.
  • Intendance des données : Les data stewards désignés maintiennent à jour les définitions, résolvent les anomalies et encadrent l’utilisation responsable des données au sein des différents domaines.
  • Standardisation : La terminologie, les politiques et les contrôles sont harmonisés entre les domaines, sauf exception documentée et approuvée.
  • Auditabilité : L’entreprise peut démontrer comment les données ont été consultées, modifiées, partagées et utilisées.
  • Utilisation éthique : L’éthique des données signifie que les données sont utilisées d’une manière équitable, non discriminatoire et alignée sur les attentes des utilisateurs, avec des mécanismes pour identifier et atténuer les résultats préjudiciables ou non intentionnels.

Ces principes se manifestent dans des mécanismes concrets : champs de propriété dans un catalogue, étiquettes de sensibilité sur les colonnes, politiques de masquage associées aux données réglementées, chemins de traçabilité pour les rapports critiques et journaux d’audit pour les revues d’accès.

Cadres et normes de gouvernance des données

Les cadres et normes de gouvernance des données aident les entreprises à structurer un programme, à définir des capacités et à décider ce qu’elles doivent mettre en œuvre en premier. Certains se concentrent sur la maturité de la gestion des données, tandis que d’autres se concentrent sur la gouvernance IT, l’architecture, la qualité ou les contrôles cloud.

Framework ou norme Usage le plus adapté Ce qu’il aide à gouverner
DAMA-DMBOK Conception d’un programme global de gestion des données Domaines de connaissances, les rôles et les disciplines de la gestion des données
DCAM Maturité de la gestion des données d’entreprise Modèle opérationnel, contrôles, responsabilisation et maturité
CDMC Contrôles de gestion des données dans le cloud Contrôles de gouvernance pour les environnements de données cloud et hybrides
COBIT Alignement de la gouvernance IT Risques, contrôles, responsabilisation et gouvernance d’entreprise
TOGAF Alignement de l’architecture d’entreprise Architecture de données, dépendances applicatives et gouvernance de l’architecture
Principes FAIR Réutilisation des données scientifiques et de recherche Trouvabilité, accessibilité, interopérabilité et réutilisation
ISO 8000 Qualité des données et données de référence Exigences de qualité, échanges de données et pratiques relatives aux données de référence
Le framework de gouvernance des données de la DGI Conception du programme de gouvernance Droits décisionnels, responsabilisation et processus relatifs aux politiques

Un organisme du secteur de la santé pourrait utiliser le DAMA-DMBOK pour définir ses capacités fondamentales de gestion des données, le CDMC pour cartographier les contrôles cloud, et les exigences de gouvernance des données de la certification HDS (Hébergement de Données de Santé) pour définir les attentes en matière d'accès, de conservation et d'audit.

Les frameworks fournissent une structure, mais un programme a encore besoin de propriétaires, de métadonnées, de classification, de règles de qualité, de politiques d’accès, de processus d’audit et de technologies capables d’appliquer les décisions lorsque les données sont utilisées.

En savoir plus sur les frameworks de gouvernance des données →

Modèles opérationnels de gouvernance des données

Un programme de gouvernance a besoin d’un modèle opérationnel adapté au fonctionnement de l’entreprise. Une entreprise mondiale comptant des dizaines de directions métiers ne peut pas gouverner chaque table via une équipe centrale unique, mais un modèle entièrement décentralisé pourrait entraîner des définitions incohérentes, des politiques redondantes et un niveau de contrôle hétérogène.

La plupart des entreprises choisissent l’un des trois modèles suivants :

ModèleFonctionnementUsage le plus adapté
CentraliséUne équipe centrale de gouvernance définit les politiques, les normes et les approbations.Programmes plus petits, données fortement réglementées ou gouvernance à un stade initial
FédéréLes domaines sont propriétaires de leurs données au niveau local, tout en respectant des normes de gouvernance partagées.Grandes entreprises dotées d’une forte responsabilisation des domaines
HybrideUne équipe centrale définit les politiques et les normes de la plateforme, tandis que les domaines assurent la gouvernance opérationnelle au quotidien.Programmes d'entreprise à forte maturité

Un modèle hybride est souvent le plus pratique. Une équipe centrale définit les normes de classification, les modèles de politique, les exigences en matière de catalogue et les attentes en matière d’audit. Les équipes de domaine sont propriétaires de leurs produits de données : elles gèrent les définitions, résolvent les problèmes de qualité et valident les accès en fonction du contexte local.

Quel que soit le modèle utilisé par une entreprise, les droits décisionnels doivent être explicites. Si deux équipes définissent différemment le terme « client actif », le modèle de gouvernance doit spécifier qui résout le conflit. Si un partenaire demande l’accès à un jeu de données sensibles, le modèle doit identifier qui approuve la demande, quelles preuves sont requises et comment la décision est enregistrée.

Les composants essentiels de la gouvernance des données

Un programme de gouvernance des données repose sur des principes et des frameworks, mais il s’appuie sur des composants opérationnels spécifiques. Ces composants rendent la gouvernance visible dans les systèmes que les utilisateurs utilisent au quotidien : catalogues, balises, graphiques de traçabilité, politiques d’accès, contrôles de qualité, workflows de gestion et pistes d’audit.

Gestion des métadonnées

Les métadonnées sont le contexte qui indique aux utilisateurs et aux systèmes ce qu’est un actif de données, d’où il provient et comment il doit être utilisé. Elles peuvent spécifier le nom d’une table, le type de colonne, le propriétaire, la définition métier, l’étiquette de sensibilité, l’objectif de fraîcheur, le parcours de traçabilité, les profils d’utilisation ou la structure de coûts.

La plupart des programmes de gouvernance reposent sur trois types de métadonnées :

  • Les métadonnées métier couvrent les définitions, les propriétaires, les domaines, les termes du glossaire et le statut de certification. Elles aident les équipes à comprendre si un actif de données est pertinent et approuvé pour son utilisation.
  • Les métadonnées techniques couvrent les schémas, les types de données, les transformations, les dépendances et la traçabilité. Elles permettent aux ingénieurs et architectes de comprendre comment les données circulent et évoluent.
  • Les métadonnées opérationnelles couvrent la fraîcheur des données, l’usage, les coûts, les résultats de qualité et les profils d’accès. Elles aident les équipes à vérifier si les données sont à jour, fiables et utilisées de manière appropriée.

Faire la différence entre gouvernance des données et gouvernance technique →

Classification des données

La classification des données associe des étiquettes aux données en fonction de leur niveau de sensibilité, de leur domaine métier, des réglementations applicables, y compris la souveraineté des données (un enjeu crucial en France pour répondre aux exigences d'immunité extraterritoriale), ou de leurs usages autorisés. Par exemple, une colonne peut être étiquetée comme contenant des PII, des données de santé protégées, des données de carte de paiement, des données financières confidentielles ou des données d'entraînement approuvées. Ces étiquettes pilotent ensuite de manière dynamique les revues d’accès, les politiques de masquage, les règles de conservation, les approbations de partage ainsi que les restrictions d’usage par l’IA.

La classification est particulièrement importante, car les données sensibles sont rarement isolées au même endroit. Les adresses e-mail, les identifiants clients, les codes de diagnostic, les données de géolocalisation et le détail des transactions circulent fréquemment à travers les pipelines, les tableaux de bord et les tables applicatives. Un programme de gouvernance doit identifier ces domaines avant de pouvoir les protéger de manière cohérente.

Catalogue de données

Un catalogue de données constitue l’inventaire interrogeable qui rend la gouvernance opérationnelle. Il offre aux analystes, aux ingénieurs, aux data stewards et aux utilisateurs professionnels un endroit où trouver des actifs de données, lire les définitions, examiner la traçabilité, vérifier les propriétaires, inspecter les signaux de qualité et demander l’accès.

Les catalogues modernes mettent en évidence les produits de données certifiés, y associent le contexte de gouvernance, indiquent si une table est suffisamment fraîche pour être exploitée et permettent aux équipes d’éviter la duplication de jeux de données similaires. Un bon catalogue répond à des questions concrètes avant même qu’un utilisateur ne rédige une requête :

  • Que signifie cette table ?
  • À qui appartient-elle ?
  • Est-elle approuvée ?
  • Quels actifs en aval en dépendent ?
  • Contient-elle des données sensibles ?

Traçabilité des données

La traçabilité des données retrace les données de la source à la consommation. Elle montre comment un champ, une table ou un indicateur circule dans les flux d’ingestion, de transformation, de modélisation, de reporting, de partage et d’IA. La traçabilité peut s’opérer au niveau de la table, en révélant les liens de dépendance avec d’autres tables ou sources ; au niveau de la colonne, en explicitant la transformation ou la réutilisation de champs spécifiques ; ou à l'échelle des systèmes, en cartographiant la circulation des données entre les différents outils, environnements cloud ou plateformes.

Lorsqu’une colonne réglementée alimente un rapport, un modèle ou un produit de données externe, la traçabilité permet de montrer l'origine, d’en suivre les transformations et d’évaluer l’impact potentiel d’une modification de la source.

Gestion des politiques

La gestion des politiques consiste à transformer les règles de gouvernance en contrôles applicables. Elle inclut les politiques d’accès, les politiques de masquage, les restrictions au niveau des lignes, les règles de rétention, les règles de partage de données, les politiques d’utilisation autorisée et les workflows d’exception.

Une politique doit définir qui peut accéder à quelles données, à quelles conditions, à quelle fin et selon quel processus d’examen. Une gestion rigoureuse des politiques inclut également des exceptions : certains utilisateurs peuvent avoir besoin d’un accès temporaire pour un audit, une migration ou la gestion des incidents. La gouvernance doit indiquer qui a approuvé l’exception, pourquoi elle a été accordée et quand elle expire.

Qualité des données

La qualité des données mesure si les données sont exactes, complètes, cohérentes, à jour, uniques et suffisamment valides pour l’usage prévu. Une table des produits utilisée pour l’expérimentation interne peut avoir un seuil de qualité différent d’une table des revenus utilisée pour le reporting financier ou d’une table des demandes de remboursement utilisée pour l’analyse des données de santé.

Une table peut avoir un propriétaire, une définition de glossaire et une politique d’accès, mais si ses enregistrements sont obsolètes ou incomplets, les utilisateurs ne peuvent pas s’y fier. Les programmes modernes intègrent la qualité plus tôt dans le cycle de vie grâce à des contrats de données, des tests de pipeline et une surveillance continue.

Confidentialité et sécurité des données

La confidentialité des données régit la manière dont les données personnelles et sensibles sont collectées, utilisées, conservées, partagées et supprimées. La sécurité des données régit la manière dont les données sont protégées contre les accès non autorisés, les usages abusifs ou l'exposition. Tous deux dépendent de la classification, de la propriété, des politiques et de l’auditabilité, c’est pourquoi ils sont généralement gérés dans le même cadre de gouvernance.

Les contrôles de confidentialité peuvent inclure la gestion du consentement, les flux de demande de données, les règles de conservation, la tokénisation et le masquage. Les contrôles de sécurité peuvent inclure le contrôle d'accès basé sur les rôles, les politiques d'accès aux lignes, le chiffrement, la surveillance et les procédures de réponse aux incidents. La gouvernance relie ces contrôles aux actifs de données, en indiquant quelles tables contiennent des données sensibles, qui peut y accéder, quelles politiques s’appliquent et si l’utilisation peut faire l'objet d'un audit ultérieur.

Partage de données et collaboration

La gouvernance des données doit permettre une réutilisation sécurisée entre les différents domaines, partenaires et écosystèmes externes, au lieu de se cantonner au simple contrôle des accès au sein d’un environnement unique.

  • Le data mesh attribue la propriété du domaine tout en préservant les normes de gouvernance fédérée.
  • Les produits de données regroupent les données avec un propriétaire, une définition, un objectif de qualité et un cycle de vie.
  • Les contrats de données définissent les attentes entre les producteurs et les consommateurs, notamment en matière de schéma, de fraîcheur et de qualité.
  • Les clean rooms permettent aux parties de collaborer sur des données gouvernées sans exposer d’enregistrements bruts.

Chaque actif de données partagé comporte des hypothèses : qui le possède, ce qu’il signifie, si elle est à jour, quelles politiques s’appliquent et si le destinataire est autorisé à l’utiliser aux fins prévues. La gouvernance contribue à rendre ces hypothèses explicites et applicables.

Rôles liés à l’intendance et à la gouvernance des données

La gouvernance des données dépend de personnes nommées, disposant de droits de décision clairs. L’intendance des données est la couche opérationnelle qui relie les décisions de gouvernance aux opérations quotidiennes sur les données. Dans le cadre d’un programme mature, les data stewards travaillent avec les data owners, les data custodians, les responsables de la conformité, les équipes de sécurité et un comité de gouvernance pour maintenir les définitions, surveiller la qualité, revoir les profils d’accès et remonter les conflits entre les domaines.

Poste Responsabilité de la gouvernance
Chief Data Officer Définit la stratégie data de l’entreprise, sponsorise le programme de gouvernance et assume la responsabilité exécutive des résultats liés aux données.
Data owner Détient l’autorité métier sur un domaine de données, un produit de données, un indicateur ou un jeu de données critiques.
Data steward Gère les définitions, les attentes en matière de qualité, les métadonnées, les conseils d’accès et la résolution des problèmes pour un domaine ou un actif.
Data custodian Gère l’environnement technique dans lequel les données sont stockées, traitées, sécurisées et maintenues
Délégué à la protection des données Supervise les obligations de conformité liées aux données personnelles réglementées, notamment lorsque la législation impose la nomination d'un responsable officiel de la protection des données
Chief Privacy Officer Dirige une stratégie, une politique et une gestion des risques plus larges en matière de confidentialité dans l’ensemble de l’entreprise
Analyste en gouvernance Assure la documentation des politiques, la maintenance du catalogue de données, le reporting, le suivi des incidents et le pilotage des indicateurs de gouvernance
Comité de gouvernance Résoudre les conflits inter-domaines, approuver les normes et prioriser les tâches de gouvernance

La répartition exacte des rôles varie selon l’entreprise, mais une constante demeure : la gouvernance requiert à la fois une autorité métier et une intendance technique. Les grandes entreprises formalisent souvent cela par le biais d’un comité de gouvernance, de voies d’escalade documentées et d’une gestion au niveau du domaine.

Les détails concrets comptent. Si deux équipes ne sont pas d’accord sur une définition d’indicateur, le programme doit définir qui décide. Si un domaine réglementé a besoin d’une nouvelle politique de masquage, le délégué doit savoir quel partenaire de sécurité ou de confidentialité impliquer. Si un problème de qualité des données affecte un rapport en aval, la traçabilité doit montrer l’impact et l’intendance des données doit déterminer à qui appartient le correctif.

Processus et stratégie de gouvernance des données

Le déploiement pratique d’une stratégie de gouvernance des données suit généralement cette séquence :

  1. Choisissez un domaine prioritaire : Commencez par la vision client à 360 degrés, les rapports financiers, les données réglementées, l’analyse de la chaîne d’approvisionnement ou les données d’entraînement pour l’IA, là où le risque métier ou la pression en matière de conformité sont les plus élevés.
  2. Inventaire des actifs de données stratégiques : Identifiez les tables, les vues, les fichiers, les métriques et rapports qui comptent le plus dans ce domaine.
  3. Classifier les données sensibles et réglementées : Étiquetez les PII, les PHI, les données de paiement, les enregistrements confidentiels et d’autres types de données contrôlées.
  4. Affecter les propriétaires et les intendants : Nommez qui est responsable des définitions, des décisions en matière d’accès, des attentes en matière de qualité et de la résolution des problèmes.
  5. Définir des politiques : Établissez des règles d’accès, de masquage, de conservation, de partage, d’utilisation de l’IA et d’exceptions.
  6. Capture de la traçabilité et des signaux de qualité : Suivez les flux de données critiques et surveillez l’actualité, l’exhaustivité et la validité.
  7. Examiner l’accès et l’utilisation : Utiliser les pistes d’audit pour valider qui a accédé aux données sensibles et si les politiques ont fonctionné comme prévu.
  8. Développer domaine par domaine : Réutilisez les normes, les modèles et les leçons apprises à mesure que le programme se développe.

Les indicateurs de réussite utiles incluent l’adoption du catalogue, le pourcentage d'actifs de données critiques avec les propriétaires, la couverture de classification, la couverture des politiques, le temps de résolution des problèmes de qualité, l’achèvement de l’examen d’accès et la réduction des résultats d’audit.

En savoir plus sur les bonnes pratiques de gouvernance des données →

Gouvernance et conformité réglementaire

Les autorités de régulation peuvent demander si une entreprise peut montrer quelles données réglementées elle détient, qui y a accédé, comment elles ont été protégées, pendant combien de temps elles ont été conservées et si les contrôles requis ont été appliqués. La gouvernance soutient le GRC en reliant les actifs de données aux politiques, propriétaires, contrôles et pistes d’audit.

En voici quelques exemples :

Obligation de gouvernance Exemples de réglementations ou de normes Ce que prouve la gouvernance
Protéger les données personnelles et sensibles RGPD, CCPA/CPRA, LGPD, PDPA, HIPAA Quelles données personnelles existent, où elles sont stockées, qui peut y accéder et comment les demandes d’exercice de droits sont traitées.
Maintenir l’intégrité des rapports SOX, BCBS 239, Basel III Comment les données financières ou de risques sont définies, transformées, contrôlées et rapprochées.
Protéger les données de paiement PCI DSS Où apparaissent les données des titulaires de carte et quels contrôles s’appliquent
Gérer la résilience opérationnelle DORA, NIS2 Surveillance des systèmes critiques, des tiers et des risques liés aux technologies de l’information et de la communication (TIC)
Gouverner l’utilisation des données liées à l’IA Le règlement européen sur l'IA et les réglementations émergentes sur l'IA Quelles données sont utilisées dans les systèmes d’IA, si elles sont appropriées et comment l’utilisation à haut risque est contrôlée

Le Règlement européen sur l'IA (EU AI Act) est un exemple utile qui illustre l’importance des calendriers de mise en conformité en matière de gouvernance. Le règlement entre en vigueur de manière progressive : les dispositions générales et les interdictions prennent effet dès le 2 février 2025, les règles relatives aux systèmes d'IA à usage général s'appliquent à compter du 2 août 2025, et un déploiement plus large se poursuivra jusqu'au 2 août 2027. Pour les entreprises qui utilisent des données d’entreprise gouvernées dans des systèmes d’IA, cela crée un besoin pratique de comprendre la provenance des données d’entraînement, la classification des données sensibles, les autorisations d’accès et l’auditabilité.

Regardez comment les fonctionnalités de Snowflake, telles que la surveillance des données sensibles, permettent de détecter et d’obtenir une vue complète de vos données sensibles en quelques clics.

Pourquoi piloter la gouvernance des données au sein de Snowflake ?

La gouvernance des données est plus facile à mettre en œuvre lorsque les politiques, les métadonnées, la traçabilité, le suivi de la qualité et les contrôles d’accès se trouvent à proximité de l’endroit où les données sont stockées, traitées, partagées et utilisées. Les fonctionnalités de gouvernance de Snowflake sont intégrées dans l’environnement même où les entreprises gèrent les données, les applications et les workloads d’IA, au lieu d’être appliquées via un outil distinct qui doit rester synchronisé.

Catalogue unifié avec traçabilité intégrée : Snowflake Horizon Catalog fournit le catalogue, la traçabilité au niveau des colonnes, les métadonnées actives et l’application des politiques sur une surface unique. Snowflake Horizon Catalog peut réduire le besoin d'un outil de catalogue dédié, car le contexte de gouvernance est hébergé au plus près des données.

La conformité dès la conception : Le centre de conformité Snowflake assure la surveillance des postures de sécurité en plus des attestations qui soutiennent les normes telles que HIPAA, PCI DSS, SOC 2 Type II, ISO 27001, FedRAMP Modéré et IRAP. Selon le mode de mise en œuvre, certaines fonctionnalités ainsi que des configurations spécifiques au client peuvent être requises.

Approche Policy-as-Code pour les données sensibles : Le masquage dynamique des données, les politiques d'accès aux lignes, le masquage basé sur des étiquettes et la tokenisation externe appliquent des contrôles de protection au niveau de la couche de données. Avec une configuration appropriée, la classification peut aider les politiques à s’appliquer uniformément aux requêtes, aux applications, au partage et aux workflows d’IA.

Auditabilité des usages : L’historique des accès et l’historique des requêtes aident à capturer des enregistrements détaillés d’accès et de transformation qui soutiennent les audits et les examens réglementaires. Lorsqu'ils sont correctement configurés, les entreprises peuvent plus facilement identifier l’auteur et le moment de chaque accès à une colonne sensible.

Conçu avec des contrôles de gouvernance pour les workflows d’IA : Cortex Guard applique des contrôles de politique aux entrées et sorties des LLM afin de réduire le risque d’introduction de données sensibles dans des contextes de modèles inappropriés. Les fonctions d’indicateurs de données peuvent être utilisées pour surveiller la qualité des données d’entraînement au fil du temps, afin que les données injectées dans les systèmes d'IA respectent les mêmes standards que les données de reporting.

Partage gouverné sans copies : Secure Data Sharing, les annonces et les data clean rooms permettent aux entreprises de partager des informations avec leurs partenaires et collaborateurs externes sans déplacer les données brutes au-delà des frontières de sécurité. Les contrôles de gouvernance peuvent rester plus faciles à appliquer de manière cohérente, car les données ne quittent pas la plateforme.

Ensemble, ces fonctionnalités offrent une surface de gouvernance unifiée qui englobe les entrepôts de données, les data lakes, les formats de table ouverts (dont Iceberg), les applications et l'IA. Ainsi, il devient inutile de recréer ces contrôles à chaque fois que la donnée migre vers un nouvel environnement.

Faire de la gouvernance une discipline opérationnelle

La maturité en matière de gouvernance n’est pas un état binaire. La plupart des programmes couvrent certains domaines et présentent des lacunes dans d’autres. Les lacunes ont tendance à devenir visibles au pire moment possible. Une constatation de conformité peut exposer une colonne qui n’a jamais été classifiée. De même, les résultats d'une IA peuvent être remis en question sans que personne ne soit en mesure de retracer les données qui y ont contribué.

Les entreprises qui évitent ces situations ne sont pas celles qui ont terminé une mise en œuvre de gouvernance. Ce sont celles qui ont intégré les contrôles de propriété, de traçabilité, de classification et d’audit dans leur fonctionnement, de sorte que, lorsque la question se pose, la réponse existe déjà.

En savoir plus sur les cas d’usage de la gouvernance des données →

À RETENIR

La gouvernance des données n'est pas un projet ponctuel, mais une discipline permanente qui permet de garantir la fiabilité, l'exploitabilité et la traçabilité des données à grande échelle. En définissant clairement les responsabilités, en mettant en place des politiques cohérentes et en assurant la traçabilité, la qualité et l'accessibilité des données, les entreprises peuvent répondre à des questions essentielles concernant leurs données avant même que des problèmes ne surviennent. Face à l’expansion de l’utilisation des données et de l’IA, l’intégration de la gouvernance dans les workflows quotidiens, plutôt que de la traiter comme une couche de contrôle distincte, est ce qui permet aux équipes d’avancer plus rapidement tout en réduisant les risques.

Foire aux questions

Les réponses de nos experts Snowflake à vos questions les plus fréquentes sur la gouvernance des données.

La gestion des données englobe l’ensemble des processus de collecte, de stockage, de transformation, d’intégration et de mise à disposition des données. La gouvernance des données établit le cadre de référence de ces activités : elle détermine la propriété des données, leur définition sémantique, les droits d’accès et d'usage, les modalités de mesure de la qualité, ainsi que les mécanismes de démonstration de la conformité. Pour plus de détails, lisez notre guide sur la gouvernance des données.

La responsabilité stratégique incombe souvent à un Chief Data Officer ou à un responsable similaire, mais la responsabilité opérationnelle au quotidien est répartie entre les data owners, les data stewards, les data custodians, les équipes de sécurité, de confidentialité, de conformité et les comités de gouvernance.

Les défis les plus complexes sont généralement d’ordre organisationnel : un manque de clarté quant à la propriété des données, un faible sponsorship exécutif, l’incohérence des définitions et une gouvernance traitée comme un sujet purement informatique plutôt que comme un enjeu métier. Les problèmes techniques tels que les métadonnées incomplètes, la traçabilité limitée ou la classification inégale sont plus faciles à résoudre une fois la responsabilisation et le processus clairement définis.

La gouvernance des données contrôle les données que les systèmes d’IA utilisent. Elle aide les équipes à comprendre la provenance des données, à classer les champs sensibles, à appliquer les politiques d'accès, à piloter la qualité, à documenter les utilisations autorisées et à retracer les sources de données qui contribuent aux résultats ou aux décisions générés par l'IA.

La plupart des réglementations n’imposent pas de modèle de gouvernance spécifique, mais la mise en conformité exige généralement le déploiement de capacités de gouvernance. Les entreprises doivent savoir quelles données réglementées elles détiennent, où elles se trouvent, qui peut y accéder, comment elles sont protégées et si elles peuvent produire des preuves lors d’un audit.

Découvrez nos ressources sur la gouvernance des données

Explorez les sujets liés à la gouvernance des données

Analyses approfondies de tous les aspects de la gouvernance des données