
Qu’est‑ce que le data mesh ? Définition et principes
Le data mesh est une approche décentralisée de l’organisation des données qui atténue bon nombre des difficultés rencontrées lorsqu’une entreprise décide d’adopter une stratégie data‑driven.
- Présentation
- Qu’est‑ce qu’un data mesh ?
- Les 4 principes fondamentaux d’une approche data mesh
- Ressources
Présentation
De nos jours, les entreprises génèrent toujours plus de données issues d’un nombre croissant de sources. Beaucoup ont du mal à suivre le rythme alors qu’elles cherchent à valoriser leurs données plus rapidement. Parmi les solutions apparues ces dernières années figure notamment le data mesh. Cette approche décentralisée de l’organisation des données soulage bon nombre des difficultés qui surviennent lorsqu’une entreprise décide d’adopter une stratégie data‑driven.
Explorons ce qu’est un data mesh et comment cette approche permet de surmonter bon nombre des obstacles à la mise en œuvre d’un programme de données en libre‑service à grande échelle.
Qu’est‑ce qu’un data mesh ?
Un data mesh privilégie une approche de la gestion des données en libre‑service orientée domaine. Il propose une nouvelle approche d’organisation des équipes data, qui répond aux principaux défis liés à l’évolution des architectures de données centralisées telles que les data warehouses et les data lakes.
Dans un data mesh, les équipes gèrent activement les données au sein de leurs domaines métiers spécifiques. Ces équipes créent et entretiennent également des pipelines qui fournissent des produits de données aux consommateurs dans l’ensemble de l’entreprise. Chaque équipe data de domaine gère indépendamment la consommation, le stockage, la transformation et la sortie de ses propres données. Cette autonomie repose sur un fort engagement en faveur de normes de gouvernance universelles, qui garantissent une interopérabilité et des normes de données homogènes pour tous les domaines et produits de données.
Les 4 principes fondamentaux d’une approche data mesh
L’approche data mesh représente un véritable changement de paradigme. La réussite de sa mise en œuvre repose sur quatre principes directeurs.
1. Propriété fondée sur les domaines : traditionnellement, une architecture centralisée confère la propriété des données à l’équipe en charge du data warehouse. L’approche data mesh transfère au contraire la propriété des données aux équipes de chaque domaine. Ces équipes ingèrent, nettoient, transforment, gèrent et gouvernent désormais les données pour créer des produits de données finis, qu’elles partagent facilement avec d’autres équipes en cas de besoin. Cette structure fonctionne car ces équipes connaissent le mieux les données de leur domaine d’activité et sont les plus aptes à les gérer. Par conséquent, confier la propriété des données aux équipes de chaque domaine renforce l’agilité des données au sein de l’entreprise.
2. Données en tant que produit : les entreprises doivent considérer les données comme des « produits » et leurs utilisateurs comme des « clients » afin de favoriser une gestion des données centrée sur l’utilisateur et orientée sur la valeur. Les équipes de domaines ne se contentent pas de créer ces produits, elles en assurent également la conservation afin d’en garantir l’exactitude, l’actualité et la qualité.
3. Infrastructure en libre‑service : une approche data mesh réussie repose sur une plateforme commune et un ensemble d’outils conviviaux, accessibles même aux utilisateurs sans expérience technique en infrastructure de données. Les équipes de domaines doivent créer et gérer leurs produits de données en toute indépendance. Sans infrastructure en libre‑service, les équipes de domaines dépendent de ressources limitées et ne disposent pas des outils nécessaires pour véritablement s’approprier leurs données.
Un data mesh évolue plus efficacement qu’un framework traditionnel, sans exiger de connaissances approfondies du domaine de la part d’une équipe de data engineering centralisée. Les équipes de domaines apportent leur expertise. Cette approche décentralisée favorise l’évolutivité et un accès rapide à des données exploitables.
4. Gouvernance fédérée : la constance des contrôles d’accès et de la protection des données reste cruciale dans une approche décentralisée de data mesh. Dans l’approche traditionnelle centralisée, les équipes chargées du data warehouse sont responsables de la qualité des données. Cette organisation pose problème, car ces équipes ne maîtrisent souvent pas aussi bien les données que les équipes sources. Le passage à un data mesh décentralisé améliore la qualité des données dans la mesure où leur gestion incombe aux utilisateurs qui les connaissent le mieux.
La gouvernance fédérée établit les normes de métadonnées et de documentation que chaque domaine applique à ses produits de données. La gouvernance garantit également l’intégration transparente des produits de données issus de différents domaines. Il est essentiel de trouver un équilibre entre le respect des normes de gouvernance et la liberté accordée aux équipes de chaque domaine pour les interpréter et les appliquer dans leurs produits de données.