
Che cos’è il data mesh? Definizione e principi
Il data mesh è un approccio decentralizzato all’organizzazione dei dati che riduce molte delle difficoltà che si verificano quando un’organizzazione decide di diventare più data‑driven.
- Panoramica
- Che cos’è il data mesh?
- I quattro principi fondamentali di un approccio di tipo data mesh
- Risorse
Panoramica
Oggi le organizzazioni generano sempre più dati da un numero crescente di fonti. Molte aziende fanno fatica a tenere il passo mentre cercano di ottenere più valore dai propri dati, in modo più rapido. Una soluzione emersa negli ultimi anni è il data mesh. Questo approccio decentralizzato all’organizzazione dei dati riduce molte delle crescenti difficoltà che si verificano quando un’organizzazione decide di diventare più data‑driven.
Esploriamo che cos’è un data mesh e come questo approccio può risolvere molte delle barriere all’implementazione di un programma di gestione dei dati self-service di successo su vasta scala.
Che cos’è un data mesh?
Il termine data mesh si riferisce a un design self-service orientato al dominio per la gestione dei dati. Offre ai team dati un nuovo approccio organizzativo per rispondere alle importanti sfide legate alla scalabilità di architetture dati centralizzate come data warehouse e data lake.
In un data mesh, i team gestiscono attivamente i dati all’interno dei propri domini aziendali specifici, creando e gestendo inoltre pipeline che forniscono data product ai consumatori nell’intera organizzazione. Ogni team dati del dominio gestisce autonomamente il consumo, l’archiviazione, la trasformazione e l’output dei propri dati. Questa autonomia si basa su un forte impegno nei confronti di standard di governance universale, che garantiscono interoperabilità e standard dei dati coerenti in tutti i domini e i data product.
I quattro principi fondamentali di un approccio di tipo data mesh
L’approccio data mesh rappresenta un importante cambiamento di paradigma e il successo dell’implementazione si basa su quattro principi guida.
1. Proprietà domain driven: un’architettura data warehouse centralizzata tradizionale attribuisce la proprietà dei dati al team data warehouse. L’approccio data mesh trasferisce invece la proprietà dei dati ai team di dominio. I team eseguono quindi l’ingestion, ripuliscono, trasformano, gestiscono e governano i dati per creare data product finiti, che condividono facilmente con altri team quando necessario. Questa struttura funziona perché i team di dominio possiedono la conoscenza più approfondita dei dati della propria area di business e li gestiscono quindi nel modo più efficiente. Di conseguenza, affidare la proprietà dei dati ai team di dominio migliora l’agilità dei dati dell’organizzazione.
2. Dati come prodotto: le organizzazioni devono considerare i dati come “prodotti” e le persone che li utilizzano come “clienti” per promuovere un approccio alla gestione dei dati più incentrato sugli utenti e orientato al valore. I team di dominio non solo creano, ma gestiscono anche questi prodotti, per garantirne l’accuratezza, l’aggiornamento e l’alta qualità.
3. Infrastruttura self-service: un approccio di tipo data mesh di successo richiede l’uso di una piattaforma comune e di un set di strumenti facili da usare, accessibili anche agli utenti privi di conoscenze tecniche sulle infrastrutture dati. I team di dominio devono creare e gestire autonomamente i propri data product. Senza un’infrastruttura self-service, i team di dominio devono fare affidamento su risorse di infrastruttura limitate e prive degli strumenti necessari per gestire realmente i propri dati.
Un data mesh si può scalare in modo più efficace rispetto a un framework tradizionale perché non richiede un team di data engineering centralizzato che conosca il dominio in ogni suo aspetto. I team di dominio contribuiscono con le proprie competenze. Questo approccio decentralizzato facilita la scalabilità e consente un accesso immediato a dati utilizzabili.
4. Governance federata: garantire controlli degli accessi e protezioni dei dati costanti è essenziale in un approccio decentralizzato di tipo data mesh. Nel tradizionale approccio centralizzato, i team data warehouse sono responsabili della qualità dei dati. È un approccio che crea dei problemi, perché spesso questi team non conoscono i dati dei team di origine. Il passaggio a un data mesh decentralizzato migliora la qualità dei dati, affidando la responsabilità della gestione di dati di alta qualità a chi ha più familiarità con tali dati.
La governance federata stabilisce metadati e standard di documentazione che ogni dominio deve applicare ai propri data product. La governance garantisce inoltre l’integrazione perfetta dei data product provenienti da domini diversi. È essenziale raggiungere un punto di equilibrio tra il rispetto delle policy di governance globali e la possibilità per i singoli team di dominio di interpretare e implementare tali standard di governance durante la creazione e la condivisione dei propri data product.