
O que é data mesh? Definição e princípios
Data mesh é um método descentralizado de organização de dados que reduz várias das dificuldades que surgem quando uma organização tenta implementar uma estratégia mais baseada em dados.
- Visão geral
- O que é um data mesh?
- 4 princípios fundamentais de uma estratégia de data mesh
- Recursos
Visão geral
Atualmente, as organizações geram cada vez mais dados de um maior número de fontes. Muitas empresas têm tido dificuldades para acompanhar o ritmo e obter mais valor de seus dados com mais rapidez. Nos últimos anos, o data mesh surgiu como solução. Esse método descentralizado de organização de dados ajuda a reduzir várias das dificuldades que surgem quando uma organização tenta implementar uma estratégia mais baseada em dados.
Vamos descobrir o que é um data mesh e como usar essa estratégia pode resolver muitas das barreiras para implementar um programa de dados self-service, bem-sucedido e em larga escala.
O que é um data mesh?
Um data mesh enfatiza um design orientado por domínios e baseado em atendimento self-service para a gestão de dados. Ele oferece um novo método para a organização das equipes de dados, resolvendo os principais desafios no dimensionamento da escala das arquiteturas de dados centralizadas, como data warehouses e data lakes.
Em um data mesh, as equipes gerenciam ativamente os dados em seus domínios de negócios específicos. Essas equipes também criam e mantêm pipelines que fornecem produtos de dados aos consumidores em toda a organização. Cada equipe de dados de domínio gerencia de forma independente o consumo, o armazenamento, a transformação e a disponibilização de seus próprios dados. Essa autonomia tem como base um forte compromisso com os padrões de governança universais, que garantem interoperabilidade e padrões de dados consistentes em todos os domínios e produtos de dados.
4 princípios fundamentais de uma estratégia de data mesh
Uma estratégia de data mesh representa uma grande mudança de paradigma, e a implementação bem-sucedida baseia-se em quatro princípios básicos.
1. Propriedade baseada em domínio: tradicionalmente, uma arquitetura centralizada de data warehouse atribui a propriedade dos dados à equipe do data warehouse. A estratégia de data mesh, por outro lado, transfere a propriedade dos dados para as equipes de domínio. Essas equipes ficam então responsáveis pela ingestão, limpeza, transformação, gerenciamento e governança dos dados de modo a criar produtos de dados finalizados, que elas podem compartilhar prontamente com outras equipes, conforme necessário. Essa estrutura funciona porque as equipes de domínio possuem o conhecimento mais profundo dos dados de sua área de negócios e, portanto, os gerenciam com mais eficiência. Como resultado, atribuir a propriedade dos dados às equipes de domínio aumenta a agilidade dos dados organizacionais.
2. Dados como produto: as organizações devem considerar os dados como "produtos" e as pessoas que os utilizam como "clientes", a fim de promover uma estratégia mais centrada no usuário e orientada para o valor na gestão de dados. As equipes de domínio não apenas criam esses produtos, mas também os mantêm para garantir que sejam precisos, estejam atualizados e tenham uma alta qualidade.
3. Infraestrutura de atendimento self-service: uma estratégia de data mesh bem-sucedida depende de uma plataforma comum e de um conjunto de ferramentas fáceis de usar, acessíveis até mesmo para aqueles sem experiência técnica em infraestrutura de dados. As equipes de domínio devem criar e manter seus produtos de dados de forma independente. Sem uma infraestrutura de atendimento self-service, as equipes de domínio dependem de recursos de infraestrutura limitados e não dispõem das ferramentas necessárias para realmente controlar seus dados.
Um data mesh cresce de forma mais eficaz do que uma estrutura tradicional, pois ele não exige que uma equipe centralizada de engenharia de dados possua todo o conhecimento do domínio. A contribuição das equipes de domínio vem do conhecimento que elas possuem. Essa estratégia descentralizada facilita o ajuste rápido da escala, permitindo acesso rápido a dados acionáveis.
4. Governança federada: manter controles de acesso e proteções de dados consistentes continua sendo essencial em uma estratégia descentralizada de data mesh. No método tradicional e centralizado, as equipes de data warehouse são responsáveis pela qualidade dos dados. Essa atribuição gera problemas, pois essas equipes frequentemente não possuem o mesmo nível de familiaridade com os dados que as equipes de origem. A mudança para um data mesh descentralizado melhora a qualidade dos dados, atribuindo a responsabilidade pela manutenção de dados de alta qualidade àqueles que estão mais familiarizados com eles.
A governança federada estabelece padrões de metadados e documentação que cada domínio aplica aos seus produtos de dados. A governança também garante a integração contínua de produtos de dados de diferentes domínios. É essencial encontrar um equilíbrio entre a manutenção dos padrões da política de governança global e a concessão de liberdade às equipes de domínio individuais para interpretar e implementar esses padrões ao criar e compartilhar seus produtos de dados.