Data for Breakfast ao redor do mundo

Transformando IA em resultados reais para os negócios.

Guia completo: o que é um data warehouse?

Descubra o que torna os data warehouses únicos, os componentes envolvidos em sua criação e como eles dotam as organizações de vantagem competitiva.

  • Visão geral
  • O que é data warehouse?
  • Arquitetura de data warehouse
  • Principais componentes de um data warehouse
  • Tipos de data warehouses
  • Data warehouse tradicional vs. na nuvem
  • Benefícios de um data warehouse moderno
  • Perguntas frequentes sobre gestão de data warehouse
  • Clientes que usam o AI Data Cloud
  • Recursos de data warehouse

Visão geral

Os dados são tão essenciais para a economia global quanto a eletricidade. Porém, assim como precisamos de usinas de energia para manter as luzes acesas e as máquinas funcionando, precisamos de sistemas que coletem, armazenem e organizem os dados antes que eles possam ser utilizados.

Os data warehouses reúnem grandes quantidades de diferentes tipos de dados (perfis de clientes, transações financeiras, catálogos de produtos, logs de equipamentos, tendências de mercado e assim por diante) e, em seguida, facilitam a análise dessas informações de várias maneiras. Os data warehouses ajudam os diretores financeiros a prever as receitas do ano seguinte, os líderes de RH a antecipar as necessidades de mão de obra, os gerentes de operações a otimizar suas instalações de fabricação e os CEOs a tomar decisões estratégicas sobre o futuro de seus negócios. Os data warehouses também estão fornecendo a base para novas ferramentas de inteligência artificial, disponibilizando fontes de informação de alta qualidade para o treinamento de modelos de IA.

Neste artigo, abordaremos detalhadamente o que torna os data warehouses únicos, os componentes necessários para criá-los e como eles oferecem às organizações uma vantagem competitiva.

O que é data warehouse?

Em termos simples, um data warehouse é um repositório centralizado que armazena dados atuais e históricos de várias fontes em toda a organização, projetado para dar suporte à inteligência de mercado (business intelligence, BI) e à análise de dados. Ao criar uma única fonte de verdade para os dados empresariais, os data warehouses ajudam a eliminar as inconsistências e as duplicações que ocorrem quando diferentes departamentos usam seus próprios repositórios de dados.

Ao contrário dos bancos de dados operacionais, projetados para lidar com transações do dia a dia, os data warehouses são otimizados para consultas complexas, geração de relatórios e análise de dados, apoiando a tomada de decisões estratégicas. Embora um banco de dados operacional ou relacional possa conter informações sobre o desempenho de diferentes segmentos de negócios quase em tempo real, os data warehouses oferecem uma perspectiva mais histórica de toda a organização. Como resultado, eles usam diferentes estruturas organizacionais e métodos para processar transações.

Os data warehouses também diferem dos data lakes, que servem para armazenar dados brutos para uso em análises futuras. Um data lake é como uma unidade de armazenamento onde você guarda aquilo que talvez seja preciso um dia. Em um data warehouse, você sabe exatamente o que tem e como pretende usar esses dados. Um data lake pode servir como fonte de dados brutos que podem ser extraídos, transformados e carregados em um data warehouse.

Data lakehouses são uma combinação mais recente desses dois conceitos, unindo a capacidade de um data lake de armazenar dados estruturados e não estruturados a um custo relativamente baixo com os recursos analíticos avançados de um data warehouse.

Arquitetura de data warehouse

Embora o conjunto de recursos exato de cada data warehouse possa variar, eles normalmente dependem de uma arquitetura de três níveis para processar dados estruturados, não estruturados e semiestruturados de forma rápida e eficiente.

Nível inferior: ingestão

É nessa camada que as informações de fontes de dados internas e externas são ingeridas e armazenadas. Esses dados são extraídos da fonte original e transformados ou enriquecidos ao eliminar inconsistências, corrigir erros, converter arquivos em um formato uniforme e criar campos compatíveis com cálculos. Em seguida, são carregados em um repositório central, um processo conhecido como extração, transformação e carga (extract, transform, load, ETL). As arquiteturas mais modernas dependem do poder de processamento interno do warehouse para transformar os dados após o carregamento, processo mais conhecido como extração, carga e transformação (extract, load, transform, ELT).

Nível médio: análise

A análise de dados ocorre no nível médio. Aqui, o data warehouse também captura metadados técnicos e operacionais para rastrear a linhagem dos dados, garantir sua confiabilidade e ajudar os usuários a entender o significado dos dados e como eles podem ser utilizados. Em seguida, é implementado um mecanismo de processamento analítico online (online analytical processing, OLAP) para analisar milhares de linhas de dados ao mesmo tempo em várias dimensões. Por exemplo, os dados de vendas do varejo podem ser analisados por unidade de manutenção de estoque (stock keeping unit, SKU), valor monetário de cada venda, custo de mercadorias, data e hora da transação, localização geográfica, identidade da loja, segmento de clientes e muito mais.

Nível superior: criação de relatórios

A camada final é onde os usuários podem realizar análises ad hoc dos dados, por exemplo, comparando os volumes de vendas online com as vendas em lojas físicas ou analisando o desempenho de diferentes segmentos de clientes em várias regiões geográficas. Os usuários podem exportar esses resultados para ferramentas de inteligência de mercado ou dashboards executivos para análises de dados aprofundadas.

Dessa forma, os dados originados em um sistema de gestão de relacionamento com o cliente (customer relationship management, CRM) ou sistema de planejamento de recursos empresariais (enterprise resource planning, ERP) podem ser transferidos para um data warehouse, limpos e padronizados, otimizados para análise, exportados para repositórios menores específicos de domínio, conhecidos como data marts, ou importados diretamente para plataformas de BI ou dashboards, onde os usuários podem executar consultas sobre os dados.

Principais componentes de um data warehouse

Cada data warehouse é composto dos mesmos componentes fundamentais. Um data warehouse deve incluir, pelo menos:

Fontes de dados

Além do CRM, ERP e de outros bancos de dados corporativos, as informações podem incluir fontes externas, como pesquisa de mercado e fluxos em tempo real de apps para web ou sensores de Internet das Coisas (Internet of Things, IoT).

Processos de ETL/ELT

Ferramentas que extraem dados de cada fonte, limpam e padronizam esses dados, e os carregam no data warehouse.

Área de preparação

Uma zona de buffer onde os dados brutos são temporariamente armazenados, validados e preparados antes de entrar no warehouse principal.

Armazenamento de dados

O local onde as informações estão fisicamente armazenadas, organizadas por um esquema, uma estrutura que descreve como diferentes dados se relacionam entre si.

Sistemas de gestão de metadados

Sistemas que mantêm informações sobre a estrutura dos dados, as regras comerciais que os regem e o histórico dos dados à medida que são transformados e utilizados.

Ferramentas de consulta e relatórios

Infraestrutura técnica que permite aos usuários fazer perguntas complexas sobre os dados e receber respostas sofisticadas. 

Controles de segurança e governança de dados

Controles usados para gerenciar a autenticação do usuário e os privilégios de acesso, proteger dados confidenciais e auditar a conformidade com as políticas de segurança.

Análise de dados e aplicações de BI

Ferramentas externas que permitem aos usuários realizar análises sofisticadas, criar relatórios e visualizar resultados.

Tipos de data warehouses

Nem todos os data warehouses são criados da mesma forma. Alguns são projetados para auxiliar no planejamento estratégico de longo prazo, outros são criados para ajudar a gerenciar as operações táticas do dia a dia. Existem também subconjuntos de warehouses criados para grupos específicos dentro de uma organização. Eles são classificados em três tipos principais: data warehouses corporativos (enterprise data warehouses, EDW), armazenamento de dados operacionais (operational data store, ODS) e data marts.

Data warehouse corporativo

Um EDW é um repositório centralizado que integra dados de todos os principais sistemas de negócios, fornecendo uma visão completa de toda a empresa. Ele combina dados de diversos sistemas em um formato unificado, pode conter anos de dados históricos, sendo projetado para auxiliar a tomada de decisões e o planejamento estratégico em todas as funções empresariais.

Armazenamento de dados operacionais

Um ODS foi projetado para reduzir a diferença entre os sistemas transacionais que armazenam dados em tempo real e os data warehouses usados para análise e estratégia de longo prazo. Ele armazena dados em seu formato original, sem a necessidade de processos de ETL ou ELT. Como foi projetado para as decisões diárias e a análise de dados em tempo real, um ODS é atualizado com mais frequência e contém menos dados históricos do que um EDW.

Data mart

Normalmente, um data mart é um subconjunto menor de um EDW, sendo limitado a domínios de negócios específicos, como vendas, marketing, finanças ou recursos humanos. Cada data mart é otimizado para atender às necessidades analíticas de uma função de negócios específica e é mais rápido de implementar e mais fácil de manter devido ao seu escopo mais limitado.

Data warehouse tradicional vs. na nuvem

Assim como acontece com outras funções de TI essenciais, as organizações podem escolher onde e como implementar um data warehouse. As empresas podem manter seu próprio data warehouse em um data center local, hospedá-lo na nuvem ou implementar uma arquitetura híbrida que combine as duas opções. Conforme mostrado na tabela abaixo, existem diferenças significativas entre o modelo local e o modelo em nuvem em termos de investimento em infraestrutura, desempenho, escalabilidade, manutenção e eficiência de custos.

Aspecto operacional


Data warehouse local

Data warehouse baseado em nuvem

Infraestrutura


Ao gerenciar todo o stack de TI, as empresas compram, instalam e mantêm todos os sistemas de hardware e software.

Os provedores gerenciam toda a infraestrutura física. As empresas podem controlar a infraestrutura por meio de APIs e interfaces da web. 

Desempenho


Definido por configurações específicas de hardware, que as equipes podem otimizar para cargas de trabalho específicas. Latência mínima da rede.

O desempenho elástico pode ser ampliado ou reduzido, dependendo das necessidades da carga de trabalho. Problemas de latência e a necessidade de compartilhar recursos com outros locatários de nuvem podem afetar negativamente o desempenho. 

Escalabilidade


A ampliação das capacidades de um warehouse exige um planejamento prévio cuidadoso e um investimento de capital significativo, podendo resultar em superdimensionamento caso a demanda de carga de trabalho diminua.

Os recursos de processamento e armazenamento podem ser dimensionados quase infinitamente de acordo com as necessidades da carga de trabalho, usando um modelo de preços baseado no consumo

Manutenção


As empresas são responsáveis pelas manutenções, correções e atualizações, o que exige investimentos significativos em pessoal. 

Os provedores cuidam de toda a manutenção da infraestrutura, enquanto as empresas são responsáveis pela governança de dados, segurança e manutenção das aplicações.

 

Custo


Exige um investimento inicial significativo, bem como custos operacionais contínuos, mas os custos permanecem relativamente fixos e previsíveis, independentemente da utilização real.

Os custos aumentam diretamente conforme o uso, o que pode resultar em despesas imprevisíveis, além de altas taxas de transferência de dados. 

As empresas que optam por soluções locais normalmente possuem organizações de TI sólidas, implementam cargas de trabalho previsíveis e de alto volume e exigem controle total sobre a soberania, a governança e a infraestrutura dos dados. As organizações escolhem provedores de nuvem quando não têm conhecimento interno, precisam implementar rapidamente, têm cargas de trabalho muito variadas, necessitam de acesso global aos dados ou desejam minimizar os gastos de capital iniciais.

Muitas organizações estão começando a adotar estratégias híbridas que combinam o controle local de dados confidenciais com a escalabilidade da nuvem para cargas de trabalho de análise de dados e desenvolvimento. Isso permite que elas otimizem tanto a segurança quanto a agilidade com base em requisitos específicos de cada caso de uso.

Benefícios de um data warehouse moderno

Existem várias razões por que as organizações podem optar por implementar um data warehouse. Algumas das mais importantes incluem:

Melhor processo decisório

Como uma única fonte de verdade, os data warehouses garantem que todos os usuários de uma organização tenham as informações mais precisas e atualizadas para tomar decisões.

Inteligência histórica e análise de tendências

A capacidade de analisar anos de dados históricos permite que as organizações identifiquem tendências de longo prazo e padrões de comportamento operacional, auxiliando no planejamento estratégico.

Melhor qualidade e consistência dos dados

Os recursos integrados de validação e limpeza de um data warehouse garantem que os dados corporativos sejam confiáveis e completos.

Escalabilidade para grandes volumes de dados

A escala dos data warehouses baseados na nuvem pode ser ajustada, de modo automático, e os recursos de processamento e armazenamento conforme a demanda, lidando com aumentos de cargas de trabalho analíticas sem aprovisionamento excessivo.

Suporte à análise de dados avançada e IA

A maioria dos data warehouses oferece suporte a recursos avançados de análise de dados, como análise de regressão e previsão de séries temporais. Alguns também apresentam recursos integrados de aprendizado de máquina, permitindo que cientistas de dados gerenciem modelos diretamente dentro do ambiente do warehouse.

Perguntas frequentes sobre gestão de data warehouse

Qual a diferença entre um data warehouse e um banco de dados tradicional?

Os bancos de dados tradicionais são desenvolvidos para lidar com as transações do dia a dia de uma organização, enquanto os data warehouses são projetados para consultas analíticas sobre dados históricos, o que os torna ideais para a tomada de decisões mais estratégicas.

Que tipo de dados são armazenados em um data warehouse?

Os data warehouses podem armazenar vários tipos de dados estruturados, não estruturados e semiestruturados de diversas fontes, como bancos de dados internos de empresas, relatórios de mercado externos e feeds de dados em tempo real.

Que problemas os data warehouses resolvem para as organizações?

Ao atuar como uma única fonte de verdade, os data warehouses podem eliminar silos de dados, garantir consistência de informações entre os departamentos, permitir análises históricas, melhorar o desempenho de consultas para análises e fornecer capacidades confiáveis de geração de relatórios.

Quão seguros são os data warehouses?

Os warehouses modernos oferecem segurança de nível empresarial, incluindo criptografia, controles de acesso, trilhas de auditoria e certificações de conformidade. Em geral, os provedores de nuvem oferecem recursos de segurança além do que a maioria das organizações poderia implementar de forma independente.