JUN 10, 2026/Leitura: 11 minProduto e tecnologia

Engenharia de dados na era da IA: novas ferramentas Snowflake criadas para pipelines inteligentes

A IA tornou a construção mais fácil do que nunca. No entanto, ser fácil de construir não é o mesmo que ser construído para durar. Se você tem sistemas instáveis e frágeis, a IA só vai piorar a situação, não melhorá-la. É por isso que você precisa de uma plataforma criada para aproveitar ao máximo a IA.

No Snowflake Summit 2026, anunciamos novos recursos que colocam nossos clientes na vanguarda da engenharia de dados de hoje. Incorporamos a IA diretamente aos fluxos de trabalho e facilitamos a construção de pipelines de dados do início ao fim. Esses novos recursos foram desenvolvidos para todos os tipos de engenheiro de dados. Eles funcionam onde seus dados estão: no Snowflake, em lakehouses abertos e interoperáveis ou em ambos. Não importa se você escreve SQL, Python ou cria modelos de ML, tudo o que você precisa para construir pipelines está em um só lugar. Com o Snowflake, você conta com uma performance de processamento elástico que ajusta a escala, conectividade contínua aos dados onde quer que eles estejam e recursos de governança de nível empresarial para dados seguros e confiáveis, com contexto de negócios consistente.

Tempo de produção mais rápido com a IA

Figura 1: O Snowflake CoCo supera os agentes de codificação genéricos em tarefas de engenharia de dados.

Figura 1. O Snowflake CoCo supera agentes de codificação genéricos em tarefas de engenharia de dados.¹

Com os novos fluxos de trabalho agênticos, a IA opera diretamente no seu ambiente local para criar soluções completas. Para o trabalho real de engenharia de dados, o Snowflake CoCo estabelece o padrão entre os principais agentes de codificação. Benchmarks em comparação com o Claude Code rodando no Opus 4.7, por exemplo, mostram que o CoCo usa 51% menos tokens e leva 8% menos etapas para concluir o trabalho.²

Oferecendo assistência contextualizada e habilidades específicas para os recursos de engenharia de dados do Snowflake, o CoCo opera dentro do seu perímetro de segurança e, o mais importante, entende o contexto dos dados da sua empresa. Com acesso aos modelos mais recentes, como Claude Opus 4.8, Claude Sonnet 4.6 e GPT 5.5, os engenheiros de dados podem usá-lo no Snowsight, pela CoCo CLI ou agora por meio de um novo app de desktop (versão preliminar pública). Use habilidades predefinidas ou personalizadas para migrar pipelines do Spark, implementar código Python, automatizar fluxos de trabalho do dbt, otimizar a performance e muito mais, tudo a partir de um único prompt.

Pipelines autônomos em que você pode confiar

Toda organização quer dados prontos para IA entregues continuamente, com baixa latência, a partir de um conjunto cada vez maior de fontes. O modo antigo, com scripts de orquestração feitos à mão, lógica incremental instável e implementações manuais, é difícil de ajustar a escala. Os fluxos de trabalho declarativos permitem que você defina o que deseja, e o Snowflake cuida de como isso será feito.

A Wolt (parte da DoorDash) adotou o Apache Iceberg como padrão para nos dar a flexibilidade de rodar cada carga de trabalho na engine certa. Usamos as Snowflake Dynamic Iceberg Tables para enriquecer, preparar e atualizar automaticamente os dados em nosso data lake — definimos uma única query com uma recência alvo (target freshness) e o Snowflake gerencia as atualizações incrementais e a orquestração. Com as Dynamic Tables no Apache Iceberg, lançamos pipelines mais rápido, reduzimos o tempo de manutenção e diminuímos o overhead dos nossos pipelines incrementais.

Raimund Kämmerer

Staff Data Engineer, Wolt

Dynamic Tables mais rápidas e flexíveis

As Dynamic Tables eliminam horas de esforço manual ao automatizar atualizações dos seus dados com base em uma consulta definida e na frequência de atualização desejada. As Dynamic Tables oferecem performance de ponta e baixa latência para pipelines incrementais. No Summit, Sergey Labetsik, engenheiro de dados sênior da Wind Creek Hospitality, demonstrou como sua equipe conseguiu entregar vouchers de alimentação aos hóspedes em menos de um minuto após a elegibilidade. Ao migrar um job em lote do dbt para um pipeline de Dynamic Tables, eles reduziram a latência completa para menos de um minuto, uma grande melhoria em relação à programação de 30 minutos em que o job vinha rodando.

Figura 2: Benchmarks mostrando um desempenho de atualização até 2,8x mais rápido nas Dynamic Tables.

O Snowflake anunciou uma série de atualizações nos fluxos de trabalho declarativos nativos para torná-los mais performáticos, interoperáveis e expressíveis, incluindo:

Performance de atualização mais rápida das Dynamic Tables (GA): acelere cargas de trabalho em até 2,8x em diversas áreas, incluindo funções de agregação, qualify/rank (SCD-1), operações cluster-by e joins, tudo medido em warehouses Gen2.
Incrementalização personalizada (versão preliminar pública): otimize a performance de transformações complexas escrevendo sua própria lógica de atualização com instruções MERGE ou INSERT, mantendo todos os benefícios das Dynamic Tables, como agendamento automático, rastreamento de dependências e replicação.
Atualização adaptativa (versão preliminar pública): determine automaticamente o método de atualização mais eficiente para cada ciclo. Sem necessidade de ajuste. O Snowflake escolhe sistematicamente entre atualizações incrementais e reinicializações para otimizar custos, evitar falhas em consultas complexas e eliminar o ajuste manual.
Materialização de Dynamic Table no dbt (versão 1.11.5 do adaptador): otimize o processamento incremental simplesmente alterando o tipo de materialização no dbt. Modular com outros modelos do dbt no pipeline.
DCM Projects (versão preliminar pública): gerencie a infraestrutura de forma declarativa, com um recurso para versionar, testar e implementar diversos pipelines de transformação no Snowflake.

Traga o dbt para o Snowflake de forma nativa

Com o dbt Projects no Snowflake, você pode usar recursos conhecidos do Snowflake para criar, editar, testar, executar e gerenciar seus projetos dbt Core. Implementar um objeto dbt Project oferece observabilidade integrada, integração de CI/CD e elimina a sobrecarga de infraestrutura associada ao gerenciamento por conta própria.

Como pioneiros na adoção do dbt Projects, trabalhamos em estreita colaboração com o Snowflake para ajudar a definir o direcionamento do produto de acordo com a forma como nossas equipes realmente desenvolvem e operam. Isso permitiu que um time enxuto se movesse mais rápido, criando uma fundação mais modular, governada e escalável para análise de dados e para a viabilização de IA em todo o grupo

António Costa

Director of Data Engineering, Aviv Group

Com as atualizações anunciadas no Summit, mais clientes estão padronizando no dbt Projects. Eles conseguem substituir o gerenciamento do dbt Core enquanto obtêm acesso ao dbt Fusion e a mais observabilidade:

o dbt Fusion (GA) agora está incluído como uma versão com o dbt Projects no Snowflake. Disponibilizado por meio da nossa parceria com a dbt Labs, qualquer dbt Project pode acessar o Fusion, projetado para melhorar os tempos de compilação de muitos builds complexos.
O DAG aprimorado do dbt com linhagem em nível de coluna (GA) usa o Snowflake Horizon Catalog para gerenciar informações em nível de esquema diretamente em um grafo acíclico dirigido (DAG) em Workspaces, detalhes de objetos e Query History. Agora, sempre que você executa um objeto dbt Project, pode obter uma visão unificada da linhagem do pipeline de dados.

Pipelines programáticos que ajustam a escala

A Pfizer reduziu seu custo total de propriedade (TCO) em 57%, ao mesmo tempo em que passou a processar dados 4x mais rápido com o Snowpark

Nem toda transformação se adapta a um modelo declarativo. Para engenheiros de dados e cientistas de dados que criam de forma programática com Python, Java, Scala e Apache Spark™, as transformações envolvem jobs, como análise complexa de arquivos, inferência de ML em escala de lote e fluxos de trabalho Python de várias etapas. Esses usuários costumam perceber que a implementação em produção leva mais tempo do que simplesmente escrever o código. Mas o Snowpark e o Snowpark Connect para Apache Spark™ foram projetados para reduzir a distância entre o protótipo e a produção.

Crie e orquestre Notebooks e ML Jobs

Sair de um notebook e chegar a um pipeline de produção sempre foi mais difícil do que deveria. O novo Pipeline Builder (versão preliminar privada) muda isso, permitindo que as equipes conectem visualmente Notebooks e ML Jobs em um pipeline completo de ponta a ponta sem escrever código de orquestração do zero. Agendamento, infraestrutura e criação de objetos são tratados automaticamente, para que cientistas e engenheiros de dados gastem menos tempo com configuração e mais tempo com o trabalho em si. O resultado são iterações mais rápidas, menos transferências e pipelines de ML fáceis de monitorar e reproduzir no Snowflake.

Crie pipelines em grande escala com o Snowpark

O Snowpark traz a experiência de desenvolvimento em Python, Java e Scala nativamente para o Snowflake. Engenheiros de dados e cientistas de dados podem escrever e iterar em Notebooks, criar transformações com a familiar API DataFrame, empacotar e implementar lógica como stored procedures e funções definidas pelo usuário (UDFs) e agendar tudo com Tasks. Da primeira linha de código aos pipelines de produção, o Snowpark oferece aos desenvolvedores um fluxo de trabalho completo, de ponta a ponta, em que o código roda diretamente onde os dados estão, com recursos de governança integrados e sem infraestrutura externa para gerenciar.

Expandimos o Snowpark em três áreas principais: produtividade do desenvolvedor, conectividade externa e atualizações voltadas para cargas de trabalho de ML e dados não estruturados. Entre os recursos aprimorados, estão:

APIs de integração de dados: extraia dados de bancos de dados externos de forma programática. A DB-API (GA) oferece suporte a drivers Python para Oracle, SQL Server, Postgres e MySQL; a JDBC-API (versão preliminar pública) adiciona leituras paralelas no lado do servidor a qualquer fonte JDBC.
Processamento de dados não estruturados (GA): leia, analise e enriqueça arquivos (imagens, PDFs, áudio) em escala de warehouse usando session.read.file() combinado com funções de IA como ai.extract(), ai.parse_document() e ai.transcribe().
Artifact Repository (versão preliminar pública em breve): obtenha pacotes Python a partir de repositórios hospedados pelo cliente (Nexus, JFrog) para UDFs, stored procedures e Notebooks, com suporte a Private Link.
Inferência de ML em lote escalável (versão preliminar privada): carregue modelos uma única vez com @udf_init_once e compartilhe-os entre workers para reduzir o uso de memória e acelerar a performance em warehouses padrão.
Code Bundles para implementação em Python e Java (versão preliminar pública em breve): combine perfeitamente com o DCM Projects para empacotar código Snowpark e Snowpark Connect para uma implementação confiável e automatizada junto com a infraestrutura da qual ele depende. Juntos, eles dão às equipes de engenharia de dados a confiança na implementação que as equipes de software têm há anos.

Com o Snowflake, os times passam de códigos locais em Python ou Apache Spark para workflows prontos para produção, com uma performance 5,1x mais rápida e custos 42% menores, em média. [3]

Modernize pipelines do Apache Spark com o Snowpark Connect

Atualizar uma plataforma de dados não deveria significar reconstruir tudo do zero. O Snowpark Connect oferece às equipes um caminho prático, trazendo pipelines existentes baseados em Spark para a infraestrutura moderna e gerenciada do Snowflake sem uma reescrita completa. Os engenheiros podem abandonar clusters Spark antigos e caros e migrar para uma plataforma criada para a escala de dados atual, com governança nativa, processamento elástico e acesso contínuo a todo o ecossistema do Snowflake. Esta é uma modernização que atende às equipes onde elas estão e elimina a sobrecarga operacional do passado.

Desde o lançamento do Snowpark Connect no ano passado, o Snowflake tem trabalhado intensamente em diversas atualizações, incluindo:

cliente Spark para Scala e Java para Scala 2.12/2.13 e Java 11/17 com a CLI snowpark-submit para implementação em produção sem alteração de código
processamento de arquivos da camada bronze com modo permissivo, tipos de dados complexos, evolução de esquema e leituras paralelas para grandes arquivos compactados
observabilidade unificada para ajudar a descobrir, diagnosticar e alertar usuários sobre jobs do Spark com todos os detalhes (status, duração, recursos, consultas, logs) do Jupyter, Airflow ou fontes externas

Integre o contexto semântico ao seu pipeline

Na última década, as definições de negócio viviam fora do pipeline. As métricas eram definidas em ferramentas de BI, as features eram definidas em stores de ML e cada equipe tinha sua própria versão da verdade. Com as semantic views, isso vem mudando. Agora, os engenheiros de dados podem adicionar significado diretamente no pipeline. Com o Snowflake Semantic View dbt Package, levamos esse conceito para os fluxos de trabalho do dbt. As equipes definem sua camada semântica diretamente nos arquivos de modelo do dbt usando a sintaxe DDL padrão, e o CoCo pode ajudar na criação dessa definição. Ao executar o dbt build, a semantic view é materializada ou atualizada no Snowflake, mantendo-a em sintonia com o restante do pipeline. O Horizon Context vai além, disponibilizando essas definições automaticamente para cada agente de IA, ferramenta de BI e aplicação que acessa seus dados.

Uma nova era da engenharia de dados

Já sabemos há anos que não dá para contratar pessoas para resolver um problema sistêmico. Acontece que o mesmo vale para o uso da IA. Quando os engenheiros de dados usam IA para entregar soluções em plataformas frágeis e herdadas, a dívida técnica não é eliminada, mas sim acelerada. O resultado são pipelines que quebram, infraestrutura difícil de manter e produtos de dados que não conseguem acompanhar o ritmo dos negócios. Nesta nova era da IA, a velocidade de criação corre o risco de superar a qualidade da base que a sustenta.

O Snowflake oferece tanto as experiências de codificação agêntica desenvolvidas especificamente para engenharia de dados quanto uma plataforma governada que as cargas de trabalho de IA exigem. Seja para adotar uma arquitetura open lakehouse, migrar cargas de trabalho do Spark, criar pipelines de inferência de ML em grande escala ou implementar uma plataforma de dados totalmente nova, o Snowflake oferece a cada profissional de engenharia de dados as ferramentas para avançar mais rápido, entregar com confiança e dedicar menos tempo a lutar contra a infraestrutura. A era agêntica da engenharia de dados chegou.

Para começar, faça download do ebook gratuito "Build Pipelines for AI: An Essential Guide to Smarter Data Engineering" e saiba mais sobre os lançamentos e anúncios empolgantes do Snowflake Summit 2026.

Com base nos resultados do ADE Bench em comparação com o Claude Code. ↩
Observação: Pontuação de eficiência baseada em testes internos usando o ADE-bench, uma estrutura criada pela dbt para avaliar agentes de IA em tarefas reais de análise de dados e engenharia de dados. ↩
Com base em casos de uso de produção de clientes e testes de prova de conceito comparando a velocidade e os custos do Snowpark entre novembro de 2022 e maio de 2026. As melhorias reais de velocidade e custo dependem de ambientes específicos dos clientes e dos padrões de carga de trabalho. ↩

Autoria:

Abhishek Kashyap

Director of Product Management

Jena Donlin

Product Marketing Lead

Engenharia de dados na era da IA: novas ferramentas Snowflake criadas para pipelines inteligentes

Tempo de produção mais rápido com a IA