Data Engineering

Fortalecendo a engenharia de dados hoje para os desafios do futuro

A engenharia de dados nunca foi tão vital quanto hoje. Com a evolução da IA, da análise de dados avançada e das aplicações baseadas em dados, os engenheiros de dados tornaram-se indispensáveis para suas organizações na hora que elas se preparam para fazer uso dessas tecnologias. Esses heróis, antes desconhecidos, estão se destacando, construindo os pipelines de dados essenciais para preparar suas organizações para o sucesso futuro. No entanto, essa oportunidade não surge sem desafios. Stacks fragmentados de tecnologias, gargalos de desempenho e o alto custo dos talentos especializados tornaram-se a norma, o que dificulta a inovação, gera custos ocultos e atrasa o progresso.

Na Snowflake, acreditamos que há um caminho melhor. Temos o compromisso de capacitar os engenheiros de dados com as ferramentas e a plataforma para lidar com as complexidades do atual cenário de dados, seja simplificando o processo de criação de pipelines de dados ou unificando dados não estruturados e estruturados dentro da mesma infraestrutura. Queremos que nossos clientes confiem em sua capacidade de assumir essa tarefa, graças a inovações que simplificam os processos, promovem a colaboração e tiram proveito do verdadeiro potencial dos dados. Isso significa reduzir o tempo gasto em ajustes repetitivos e trabalho de manutenção cotidiano envolvidos em sistemas de engenharia de dados desatualizados. Em vez disso, os engenheiros de dados podem trabalhar livremente para descobrir novos casos de uso e explorar o território desconhecido por vir. 

Nossa visão do futuro da engenharia de dados simplifica o que é complexo, democratiza os insights e é mais conectada do que nunca. Agora, seus dados fazem mais para você.

Com isso, temos o prazer de anunciar uma série de novos recursos e atualizações de produtos criados para esse futuro. Neste blog, vamos falar em detalhes sobre esses recursos e o valor que eles oferecem, à medida que você cria pipelines de dados eficientes, acelera suas iniciativas de open lakehouse e integra IA e dados não estruturados em seus fluxos de trabalho com facilidade surpreendente. Com o Snowflake, você pode se concentrar em agregar valor e promover a inovação, deixando para trás as complexidades da infraestrutura de dados. 

Anunciando as mais recentes inovações da Snowflake para engenharia de dados

Openflow: revolucionando a movimentação de dados

O Snowflake Openflow é um serviço aberto de integração de dados multimodal, extensível e gerenciado que facilita a movimentação de dados entre fontes e destinos. Com suporte a todos os tipos de dados, estruturados e não estruturados, em lote e de streaming, o Openflow revoluciona a movimentação de dados diretamente no Snowflake, fundamental para permitir o processamento contínuo de extração, transformação e carregamento (extract, transform, load, ETL) para IA. Toda a integração de dados é unificada em uma única plataforma, com extensibilidade e interoperabilidade ilimitadas para conexão com qualquer fonte de dados. Facilitando qualquer arquitetura de dados, o Openflow permite que as empresas dimensionem com confiança suas necessidades de integração com confiabilidade e governança de nível empresarial. Centenas de conectores e processadores prontos para uso simplificam e aceleram rapidamente a integração de dados de uma ampla variedade de fontes de dados, incluindo conectores de parceiros estratégicos. Por exemplo, a Snowflake está trabalhando em parceria com a Oracle para desenvolver uma solução de alto desempenho, dimensionável e econômica para replicar a Change Data Capture (CDC) dos bancos de dados Oracle para o Snowflake. 

Snowflake Open Flow diagram - Data Eng.jpg

Com o Snowflake Openflow, é possível:

  • Liberar a movimentação de dados com qualquer conector que a sua empresa exija.

  • Liberar pipelines de ETL para capacitar agentes de IA a tomar decisões em velocidade de máquina.

  • Criar integrações dimensionáveis e prontas para a produção com implementação flexível, observabilidade de dados e governança.

dbt Projects on Snowflake

Como componentes básicos de qualquer estratégia de dados eficaz, as transformações são fundamentais na criação de pipelines de dados robustos e dimensionáveis em escala. Assim, queremos anunciar outro avanço bem interessante de produto para criar e orquestrar pipelines de dados: dbt Projects on Snowflake (breve em versão preliminar pública). 

Favorito entre as equipes de dados, o dbt oferece a capacidade de trazer práticas recomendadas de engenharia de software e melhor eficiência nos fluxos de trabalho de transformação de dados SQL e Snowpark diretamente no Snowflake. Com essa nova opção nativa, as equipes de dados agora podem criar, executar e monitorar dbt Projects diretamente na interface de usuário do Snowsight, reduzindo a troca de contexto, simplificando as configurações e acelerando o ciclo de vida de desenvolvimento de pipelines de dados. 

Com o suporte de dbt Projects, é possível:

  • Permitir que novas equipes criem e implementem pipelines com governança uniforme. Acelere a integração de novos colaboradores e treine novas equipes para criar os pipelines de que elas precisam por meio de uma interface intuitiva com um modelo uniforme de governança e segurança para dados e pipelines.

  • Consolidar sistemas para reduzir a administração e melhorar a depuração. Execute dbt nativamente no Snowflake e simplifique o ciclo de vida do desenvolvimento do pipeline para melhorar a produtividade do desenvolvedor e identificar e resolver problemas rapidamente.

Esses recursos são apenas o começo. Em breve, serão lançadas mais atualizações interessantes para otimizar e aprimorar ainda mais os seus fluxos de trabalho.

Melhorias no pipeline Python e SQL

Com as melhorias recentes em alguns dos nossos recursos mais populares, estamos simplificando fluxos de trabalho complexos em todo o cenário de engenharia de dados, influenciando tudo, desde fluxos de trabalho SQL colaborativos até pipelines Python mais complexos. Essas melhorias visam simplificar processos e aumentar a eficiência dos engenheiros de dados que trabalham com diversas ferramentas e tecnologias.

As Dynamic Tables oferecem uma estrutura declarativa para pipelines em lote e de streaming, o que simplifica a configuração com orquestração automática e processamento contínuo. As atualizações importantes incluem suporte completo para o Apache Iceberg, latência reduzida para pipelines quase em tempo real (cerca de 15 segundos, em versão preliminar privada) e melhorias de desempenho para várias operações SQL. Além disso, novas extensões de SQL (em breve disponíveis ao público) oferecem maior controle sobre a semântica do pipeline, impedindo atualizações ou exclusões e permitindo o reabastecimento de dados.

Outra nova atualização, o Pandas no Snowflake com execução híbrida (versão preliminar privada), oferece suporte a pipelines do Pandas em todas as escalas de dados. Esse recurso executa queries de forma inteligente, enviando-as para o Snowflake para grandes conjuntos de dados ou localmente com pandas padrão para conjuntos menores, possibilitando um desempenho consistente e eficiente durante todo o ciclo de vida do desenvolvimento.

Open lakehouse

Elimine a fragmentação de dados e reduza o tempo de obtenção de informações e IA com o amplo suporte do Snowflake para tabelas Apache Iceberg™. Agora, os engenheiros de dados podem redefinir fundamentalmente o modo de criar data lakes abertos e conectados. Ao centralizar e ativar automaticamente quase todo o ecossistema Iceberg em um único painel, simplificamos o ciclo de vida dos seus dados, eliminando a necessidade de processos complicados para descoberta e acesso a eles. Suporte contínuo para transformação de arquivos Parquet em tabelas Iceberg e otimizações recém-disponíveis para tamanho de arquivo e partições garantem que seu open lakehouse incorpore mais dados, ao mesmo tempo em que aumenta o desempenho.

Com os recursos crescentes de lakehouse do Snowflake, é possível:

  • Descobrir e ativar dados de empresas de praticamente qualquer lugar. Crie uma visão única conectada do seu open lakehouse integrando o Snowflake Open Catalog, ou qualquer outro catálogo compatível com Iceberg REST, ao Snowflake com os Catalog Linked Databases (breve em versão preliminar pública). Descubra, atualize e ative automaticamente as tabelas subjacentes com o mecanismo unificado de processamento e desempenho de preço do Snowflake AI Data Cloud.

  • Transformar usando governança unificada e atingir um desempenho ideal. Com o lançamento recente de suporte para gravação em tabelas Iceberg gerenciadas externamente (breve em versão preliminar pública), realize a transformação contínua dos dados em todo o seu ecossistema Iceberg dentro do Snowflake, e desfrute da governança e da segurança integradas com a tecnologia do Snowflake Horizon Catalog. Controle o desempenho com o Snowflake, definindo tamanhos de arquivos e partições em praticamente qualquer tabela Iceberg, que em breve será lançada em versão preliminar pública. Utilize as Table Optimizations (breve em versão preliminar pública) para automatizar a coleta de lixo, a compactação e muito mais. Leve menos tempo gerenciando a infraestrutura e mais tempo produzindo impacto.

  • Criar pipelines declarativos para tabelas Iceberg. Simplifique seus pipelines com Dynamic Iceberg Tables, uma solução totalmente gerenciada de orquestração que transforma continua e incrementalmente seus dados armazenados em Iceberg Tables, mantendo total interoperabilidade. O suporte para tabelas Iceberg gerenciadas pelo Snowflake já está disponível ao público. Em breve, o suporte para tabelas Iceberg gerenciadas externamente também estará disponível ao público.

  • Fornecer análise avançada de mais dados. Libere o valor dos seus dados semiestruturados com o suporte VARIANT, agora em Iceberg Tables. Integre continuamente os tipos de dados geoespaciais e geométricos, em breve, em versão preliminar privada, para obter insights mais aprofundados e conscientes de localização. Suporte para Merge on Read, agora em versão preliminar privada, significa que agora você pode ativar mais seu ecossistema Iceberg dentro do Snowflake.

  • Acessar dados do Delta Lake como Iceberg Tables sem migração de dados. Traga mais seus dados para o seu data lakehouse aberto e conectado, convertendo metadados da tabela Delta em Iceberg Tables sem a ingestão ou a necessidade de mover os arquivos Parquet subjacentes. 

Integração avançada e segurança de nível corporativo para Open Catalog

Descubra todo o potencial das suas Iceberg Tables no Snowflake e tenha segurança e governança completas. Ao sincronizar automaticamente Iceberg Tables gerenciadas pelo Open Catalog, você obtém acesso unificado de leitura/gravação e governança consistente e integrada com tecnologia do Horizon Catalog. Tudo no ambiente Snowflake. Aproveite a separação clara da governança, com o Horizon gerenciando consultas do Snowflake e o Open Catalog lidando com o acesso multimotor externo, eliminando as ambiguidades da sua postura de segurança. Além disso, recursos de segurança de nível empresarial agora estão disponíveis no Open Catalog, fornecendo acesso seguro ao usuário e conexões de dados privados para o catálogo líder de segurança, interoperabilidade e neutral por fornecedor.

Graças às melhorias do Snowflake Open Catalog, os usuários podem:

  • Permitir o acesso seguro do usuário de nível corporativo. Aproveite o acesso contínuo à interface do usuário (user interface, UI) por meio de login único (single sign-on, SSO) com o SAML 2.0. Possibilite a integração programática segura entre mecanismos e serviços por meio do OAuth com o provedor de identidade de sua preferência ou com a solução de autenticação nativa com pares de chaves do Snowflake.

  • Ativar conectividade privada bidirecional para acesso a metadados. Utilize o Private Link, uma estrutura de segurança unificada, para estabelecer conexões protegidas entre seus dados, Snowflake, mecanismos, ferramentas e Snowflake Open Catalog, ajudando a garantir que seus dados permaneçam privados e em conformidade durante todo o ciclo de vida. 

  • Acessar todo o seu ecossistema Iceberg. Tenha acesso contínuo a praticamente todas as suas Iceberg Tables com o Catalog Federation no Apache Polaris (em incubação). Ao criar uma visão única de todos os catálogos vinculados, o Federation simplifica a descoberta de dados e permite a ativação em qualquer mecanismo com suporte a integrações do catálogo Iceberg REST. Federation chega em breve ao Open Catalog em versão preliminar privada.

  • Simplificar o gerenciamento de tabela Delta. Centralize as tabelas Iceberg e Delta no Snowflake Open Catalog. Crie, atualize, elimine e controle o acesso às tabelas Delta e Iceberg a partir de um único painel. Descubra automaticamente os dois formatos no Snowflake, permitindo consultar tabelas Delta, proporcionando visibilidade e controle unificados sobre seus ativos de lakehouse. O recurso Delta Tables do Open Catalog, um serviço gerenciado do Apache Polaris (em incubação), em breve estará em versão preliminar privada.

Experiência de DevOps moderna

Reduza o tempo de retorno com melhorias na produtividade do desenvolvedor que permitem focar em trabalho de alto valor, em vez da manutenção contínua. Com a funcionalidade DevOps do Snowflake, você pode simplificar e automatizar o ciclo de vida do desenvolvimento de software dos seus ambientes Snowflake, com foco em práticas recomendadas de CI/CD, desenvolvimento de código e gerenciamento de infraestrutura. Junto com o suporte a ferramentas modernas de DevOps e IA do Snowflake, você obtém uma integração perfeita entre as tarefas de desenvolvimento e as tarefas operacionais, levando a um fluxo de trabalho mais produtivo e eficiente.

Seguindo o nosso compromisso de melhorar continuamente a experiência de DevOps com o Snowflake, anunciamos algumas novas atualizações.

  • Espaços de trabalho Snowflake. Fornece uma interface de usuário moderna para todas as tarefas de desenvolvimento do Snowflake. A partir do suporte a dbt Projects e ao SQL, os desenvolvedores poderão utilizar um IDE comum com recursos avançados de desenvolvimento, incluindo integração nativa do Git, diferenciação visual lado a lado e assistência de código de AI Copilot em linha, ao trabalhar com arquivos no Snowflake. Futuramente, será oferecido suporte a outros objetos.

  • Uso de Terraform para o gerenciamento de infraestrutura Snowflake. Com o HashiCorp Terraform para gerenciar sua Infrastructure as Code (IaC), o provedor Snowflake Terraform permite o gerenciamento de recursos Snowflake, incluindo warehouses, bancos de dados, esquemas, tabelas, funções, autorizações, entre outros.

  • Mais formas de se conectar ao seu Git repos. Agora você pode usar URLs personalizadas para se conectar ao seu repositório Git (em vez de ser limitado apenas ao repositório que pertence a domínios conhecidos), obtendo mais flexibilidade ao configurar seu ambiente Git. 

  • Suporte para runtime do Python 3.9. Agora, é possível usar Python 3.9 com seus Snowflake Warehouse Notebooks.

O futuro é agora

As mais recentes inovações do Snowflake foram desenvolvidas para enfrentar, sem medo, os maiores desafios da engenharia de dados. Vamos conversar sobre como esses avanços podem revolucionar sua estratégia de dados.

Crie pipelines melhores

A engenharia de dados moderna cresce com colaboração e escalabilidade simplificadas. Ao expandir nossos recursos nativos de ingestão e transformação com recursos como Openflow e dbt Projects, estamos capacitando as equipes a trabalharem juntas e de forma contínua no ambiente seguro do Snowflake. Também estamos apoiando a flexibilidade dos padrões abertos e dos programas de código aberto mais conhecidos (open source software, OSS), como dbt e Iceberg, integrando-os facilmente aos seus fluxos de trabalho já existentes.

Libere sua equipe do peso do gerenciamento de infraestrutura complexa e concentre-se, em vez disso, em tarefas de alto valor. Nossas transformações sem servidor e opções de orquestração eliminam a necessidade de hospedar e gerenciar clusters de processamento, o que oferece desempenho excepcional. Além disso, a automação está no cerne da nossa plataforma, simplificando o ciclo de vida do seu desenvolvimento por meio de CI/CD, automação de implementação e gerenciamento eficaz de infraestrutura.

Agilize o seu open lakehouse

O seu open lakehouse deve funcionar como uma máquina bem azeitada, capaz de lidar perfeitamente com todos os formatos de dados que você possui, onde quer que eles estejam armazenados. O Snowflake permite conectar, transformar e ativar todos os seus dados com facilidade. Segurança e governança são essenciais. Nossa plataforma oferece proteção de dados robusta, controles de acesso granulares e práticas de governança abrangentes, incluindo mascaramento e acesso de auditoria de dados. Com o Snowflake, você pode manter com confiança a qualidade, a precisão e a confiabilidade dos dados em todo o seu ecossistema de dados. Temos o compromisso de promover um ambiente de dados que motive a inovação e a produtividade por meio de ferramentas e padrões otimizados, ao mesmo tempo em que garante que sua arquitetura possa ser facilmente dimensionada em escala conforme a sua empresa evolui.

Aproveite seus dados para a IA

Explore o poder da inteligência artificial com a capacidade do Snowflake de unificar seus dados não estruturados, semiestruturados e estruturados. Combine textos, documentos, imagens e outros formatos de dados não estruturados com seus dados estruturados existentes de forma contínua, criando uma ampla base para modelos de IA. Aproveite recursos como o Openflow (criado com os processadores de IA do Snowflake Cortex disponíveis) e o Document AI para aproveitar todo o potencial dos LLMs e da IA diretamente em seu pipeline. Use os recursos avançados do Snowpark para processar e transformar dados não estruturados em escala usando Python e outras linguagens familiares.

O Snowflake também permite que você crie e implemente aplicações de IA generativa de ponta, aproveitando o poder dos LLMs de alto nível, geração aumentada de recuperação (retrieval augmented generation, RAG) de última geração e outros serviços avançados de IA generativa por meio do Cortex AI. Conecte todo o cenário de dados da sua empresa à IA com fluxos de dados bidirecionais quase em tempo real usando o Openflow e seu suporte para diversas estruturas e requisitos de dados. Simplifique a complexidade dos pipelines de dados para IA, eliminando a necessidade de combinar ferramentas diferentes em várias equipes. Com a segurança, a governança e a observabilidade unificadas do Snowflake, você pode fornecer soluções de IA com confiança na produção, adicionando confiança e confiabilidade a cada etapa do processo.

Para conhecer melhor as melhorias de engenharia de dados e mais, inscreva-se no próximo evento Data Engineering Connect da Snowflake, que acontecerá em 29 de julho de 2025. 

Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Onde os dados fazem mais

  • Avaliação gratuita de 30 dias
  • Sem precisar de cartão de crédito
  • Cancele a qualquer hora