JUN 03, 2026/Leitura: 16 minProduto e tecnologia

Construa o lakehouse interoperável: Autonomia sobre seus dados

Snowflake Summit rollup summary blog placeholder2

A IA está testando cada decisão de arquitetura. Quando as equipes não conseguem agir sobre os dados onde eles residem, elas os copiam. Os pipelines se multiplicam, a governança se fragmenta, os custos se acumulam e os agentes de IA acabam raciocinando sobre dados desatualizados e desconectados, em vez dos dados governados e semanticamente ricos de que precisam.

O open lakehouse prometeu resolver a fragmentação de dados sem forçar todos a usar uma única plataforma. Mas, para a maioria das organizações, o formato chegou antes que a governança e a fragmentação semântica pudessem ser resolvidas. Mas, hoje isso mudou. O lakehouse interoperável da Snowflake, desenvolvido no Apache Iceberg™, Apache Polaris™ e Open Semantic Interchange (OSI), está em GA. Ele oferece um novo plano de ação para conectar, acessar, governar e operar uma única cópia governada dos seus dados, onde quer que eles residam e sem dependência de fornecedor. Ao devolver o controle aos proprietários dos dados, e não aos fornecedores, você pode criar autonomia sobre seus dados e, no processo, reduzir os custos de arquitetura e basear cada iniciativa de IA em uma base na qual você pode realmente confiar.

Aja sobre os dados onde eles estão

A autonomia sobre seus dados começa com uma base de dados conectada, um único lugar para agir sobre cada conjunto de dados, para qualquer operação, sem copiá-los. Com este lançamento, a Snowflake avança essa base em todas as camadas de acesso. O suporte da Snowflake para o Apache Iceberg v3 está em GA e pronto para produção, fornecendo o conjunto mais amplo de recursos v3 do mercado atual, que estão profundamente integrados em toda a plataforma para viabilizar uma maior interoperabilidade. As tabelas do Snowflake Storage for Apache Iceberg™ tornam o Iceberg gerenciado tão fácil quanto um CREATE TABLE. As integrações de cópia zero trazem seus sistemas de registro para a base com a semântica intacta. O Horizon Context conecta as definições de negócios nas quais todas as equipes e agentes de IA operam. Mais dados. Mais contexto. Uma cópia governada.

O Apache Iceberg foi originalmente projetado para enormes conjuntos de dados analíticos, mas tinha um suporte abaixo do ideal para workloads que envolviam dados semiestruturados, pequenas atualizações, análise de dados geoespaciais e pipelines de rastreamento de alterações. O Apache Iceberg v3 preenche essa lacuna. A partir de hoje, a Snowflake traz o conjunto mais amplo de recursos v3 para produção, incluindo suporte a VARIANT para dados semiestruturados, linhagem de linhas para rastreamento de alterações entre mecanismos, vetores de exclusão para exclusões em nível de linha com alta performance, carimbos de data/hora em nanossegundos para telemetria de alta frequência e workloads financeiros, valores padrão e tipos geoespaciais. Mais workloads agora têm um caminho claro para a interoperabilidade.

Um formato capaz, no entanto, não elimina o custo operacional de gerenciar o armazenamento. As tabelas do Snowflake Storage for Apache Iceberg™, em GA para AWS e Azure e em breve em versão preliminar privada para o Google Cloud, oferecem uma experiência do Iceberg totalmente gerenciada: abertas desde o início, governadas por meio do Horizon Catalog e com capacidade de leitura e gravação por qualquer mecanismo compatível com o Iceberg. Para equipes que gerenciam seu próprio armazenamento no Azure, o suporte ao Azure DFS está em GA, oferecendo total interoperabilidade por meio de endpoints nativos do Azure Data Lake Storage Gen2.

Figure 1: Introducing Snowflake Storage for Apache Iceberg™, now generally available.

Trazer os dados existentes não deve exigir migração ou conversão. O Parquet Direct, em versão preliminar privada e em breve disponível ao público, torna os arquivos Parquet existentes consultáveis com uma performance de classe Iceberg. A integração com o Google Cloud Lakehouse está em GA, criando bancos de dados vinculados ao catálogo para o ambiente de lakehouse cross-cloud do Google, com descoberta automática de tabelas e acesso cross-cloud de leitura e gravação. A atualização just-in-time para Iceberg gerenciado externamente, em versão preliminar privada, detecta metadados desatualizados no momento da consulta e os atualiza automaticamente, eliminando a necessidade de configurar atualizações agendadas.

As plataformas corporativas são onde residem os dados corporativos mais valiosos, e onde o custo do pipeline sempre foi mais pesado. A integração de cópia zero disponibiliza dados de negócios críticos no seu ecossistema Snowflake quase em tempo real, sem pipelines de ETL ou a necessidade de reconstruir o contexto semântico. Elas existem agora para SAP (GA), Salesforce, Workday (versão preliminar privada), e novas parcerias com a AVEVA e a IBM ampliarão ainda mais esse modelo (tecnologia operacional e dados industriais do AVEVA CONNECT, e plataformas de dados corporativos da IBM), reunindo definições de negócios e contexto para dados mais consistentes e prontos para IA.

Ter sistemas conectados não se traduz necessariamente em significados conectados. Receita, churn e contagem de clientes ainda significam três coisas diferentes em três lugares diferentes, até que as próprias definições residam em uma camada conectada. O Horizon Context é essa camada. Ele vincula definições de negócios dispersas em bancos de dados, data lakes e ferramentas de BI para que todas as equipes dentro e fora da Snowflake (e agentes de IA) raciocinem a partir da mesma definição de verdade corporativa. Conecte-se a bancos de dados externos, sistemas de BI e de pipeline de dados, incluindo PostgreSQL, Microsoft SQL Server, Tableau, Microsoft Power BI e dbt, e enriqueça os metadados com esquemas, logs de consulta, definições de dashboard e muito mais (em versão preliminar privada). O Horizon Context viabiliza essa base por meio de um conjunto de recursos integrados:

Conectores prontos para uso: Conecte-se a ferramentas como PostgreSQL, Microsoft SQL Server, Tableau, Microsoft Power BI e dbt que permitem reunir um contexto rico (logs de consulta, popularidade, esquemas e muito mais) de várias fontes em um único catálogo pesquisável.
Linhagem em nível de coluna de ponta a ponta: A linhagem é fundamental para entender como os ativos de dados se relacionam entre si. O Horizon Context extrai informações de linhagem do Snowflake e de logs de consulta de bancos de dados externos, sistemas de BI e feeds do OpenLineage, unindo tudo para criar um gráfico de linhagem completo de ponta a ponta.
O Semantic Studio, em versão preliminar privada, é um IDE assistido por IA no Snowflake Workspaces que permite às equipes definir, testar e publicar lógicas de negócios compartilhadas sem conhecimento em SQL, com integração ao Snowflake CoCo e sincronização com o Git para controle de versão.
O Semantic View Autopilot (GA) analisa padrões de consulta existentes para gerar e refinar automaticamente exibições semânticas, ajudando a garantir que sua camada de contexto permaneça atualizada à medida que seus dados e uso evoluem. O CoCo agora recupera o contexto de negócios para pesquisa, geração de SQL e análises complexas, em GA.
E, por meio do Open Semantic Interchange (OSI), essas definições vão além do Snowflake para o ecossistema mais amplo de BI e IA, com 54 fornecedores participantes e uma especificação publicada.

Fazer uma pergunta aos seus dados deve ser algo simples. Com uma base conectada e interoperável, isso é possível. O Agentic Queries (GA) permite que suas equipes façam perguntas em linguagem natural no Snowflake, em data lakes e, em versão preliminar privada, em sistemas relacionais externos. O Horizon Context retorna a resposta governada quase instantaneamente.

Esse é apenas o ponto de partida. Os dados compartilhados, inclusive em formatos abertos, também devem ser igualmente conversacionais. O Auto-gen Agents for Data Shares and Listings, em versão preliminar pública, gera instantaneamente uma exibição semântica e um agente a partir de qualquer oferta de dados ou compartilhamento seguro de dados sem desenvolvimento manual. O Cortex Agent Sharing, em versão preliminar pública, implementa esse agente nas contas do Snowflake para equipes internas, parceiros ou o ecossistema mais amplo por meio do Marketplace. Juntos, esses recursos abrem novos públicos e casos de uso para os mesmos conjuntos de dados governados por meio de uma experiência conversacional. Os consumidores podem até mesmo combinar dados compartilhados com seus dados próprios para obter insights mais ricos, tudo governado de forma nativa.

Governança universal

Agir sobre os dados no local resolve apenas metade do problema. O problema maior se torna óbvio no momento em que você o desenvolve: quem governa seus dados, onde e como. Ambientes com vários catálogos fragmentam as políticas. O acesso a vários mecanismos multiplica os desafios, corroendo o controle sobre seus dados a cada solução alternativa. E se você só precisasse definir as políticas de acesso uma vez em um catálogo universal? Temos o prazer de anunciar novos recursos no Horizon Catalog (baseado no Apache Polaris™) que ajudam a conectar todo o seu ecossistema Iceberg. Agora, você pode governar não apenas o Iceberg gerenciado pelo Snowflake, mas todas as tabelas Iceberg em seu ambiente. A governança universal, definida no Horizon, é respeitada em todos os mecanismos compatíveis com IRC e sem dependência de fornecedor.

Tudo começa com o fornecimento de uma base interoperável pronta para produção. Agora, o acesso de leitura e gravação de mecanismos externos está em GA no Horizon Catalog, fornecendo total interoperabilidade bidirecional por meio de credenciais emitidas, os mecanismos de segurança abertos definidos no protocolo Iceberg REST, para tabelas Iceberg gerenciadas pelo Snowflake. Spark, Trino, PyIceberg e qualquer mecanismo compatível podem ler e gravar na mesma cópia governada que seus usuários do Snowflake. Um catálogo, um conjunto de políticas, sem concessões entre usar seus mecanismos preferidos e manter as políticas de governança em um só lugar.

Quando a maioria das empresas tem vários catálogos, definir controles de governança uniformes é algo caro e complexo. A implementação de uma governança universal força a escolha entre migrações caras ou a transferência da complexidade e do custo operacional para suas equipes de dados, duplicando os controles de governança, auditoria e monitoramento em cada catálogo. Essa escolha forçada corrói o controle sobre seus dados. No ano passado, com base no princípio de agir sobre os dados no local, lançamos os bancos de dados vinculados a catálogos (em GA) para descobrir automaticamente e ler e gravar com segurança em todas as suas tabelas Iceberg externas no Snowflake. Este ano, estendemos esse princípio para incluir a governança de dados no local, eliminando a necessidade de migrações forçadas. Agora, em versão preliminar privada, você também pode gerenciar o acesso seguro do mecanismo a essas tabelas Iceberg externas usando as APIs do Horizon Iceberg REST Catalog para operações de leitura e gravação, evoluindo o Horizon Catalog para uma camada de governança universal para todas as tabelas Iceberg. Você ganha recursos abrangentes de governança, auditoria e observabilidade em um só lugar para todas as operações de qualquer mecanismo.

Outro motivo comum por trás da fragmentação de catálogos é que os controles de acesso granulares foram limitados ao catálogo associado a um único mecanismo. Essa limitação aumenta a carga operacional de gerenciar um ambiente com vários mecanismos para suas equipes de dados, elevando o risco de uma política mal configurada causar um vazamento de dados. Agora, o suporte para a Iceberg REST Scan Plan API (em versão preliminar privada) elimina essa restrição. Com esse recurso, as políticas de acesso granulares acompanham os dados onde quer que sejam consultados, permitindo que as políticas de acesso a linhas e Dynamic Data Masking definidas no Horizon Catalog para tabelas Iceberg gerenciadas pelo Snowflake sejam aplicadas quando acessadas por mecanismos externos. Por fim, o novo Snowflake Connector for Apache Spark (em GA) aplica essas políticas para equipes que já executam no Spark, fornecendo uma solução pronta para produção hoje.

Estamos ampliando o alcance do Open Data Sharing, permitindo que os clientes compartilhem catálogos federados usando bancos de dados vinculados a catálogos (em GA em breve). Também estamos anunciando que o Open Data Sharing foi aprimorado (versão preliminar pública) para que qualquer mecanismo externo compatível com IRC possa consumir todos os compartilhamentos de dados sem precisar de uma conta do Snowflake. Quando combinados, esses dois recursos capacitam os clientes a usar qualquer mecanismo externo para acessar com segurança qualquer formato de tabela aberta que possa ser acessado pelo Horizon.

As políticas permanecem aplicadas porque as próprias conexões são seguras. O Private Link para catálogos e armazenamento externos está em GA, mantendo os dados fora da internet pública quando o Snowflake se conecta a lakes externos.

Isso funciona porque os padrões subjacentes são abertos. O Apache Polaris agora é um projeto de nível superior da Apache Software Foundation, e os engenheiros da Snowflake contribuíram com a especificação da Scan Planning API para o projeto Apache Iceberg. A governança universal se torna uma solução de ecossistema, não apenas um recurso do Snowflake.

Pronto para as empresas por padrão

Atuar nos dados onde estão e governá-los universalmente é a arquitetura. Executá-la em produção é responsabilidade da sua equipe. A maioria das arquiteturas de lakehouse devolve essa responsabilidade ao arquiteto: verificações de integridade para instrumentar, logs de auditoria para reconciliar entre mecanismos e resiliência para adicionar. Hoje, esse fardo operacional desaparece. A auditoria abrangente no Access History, em versão preliminar privada, registra cada operação de mecanismo externo diretamente no Access History do Snowflake, oferecendo às equipes de conformidade e segurança um registro único e conectado de todas as operações de tabela no nível do usuário, independentemente do mecanismo usado ou da tabela acessada. O monitoramento de integridade operacional para tabelas Iceberg gerenciadas externamente em bancos de dados vinculados a catálogos, em versão preliminar privada, revela problemas de atualização e atualidade antes que cheguem à produção. E a replicação gerenciada do Iceberg, em breve em GA, torna a mesma base aberta resiliente contra interrupções por padrão. Pronto para empresas, sem o projeto de integração.

As equipes de conformidade sempre tiveram que reconciliar logs de auditoria entre mecanismos. A auditoria abrangente no Access History, em versão preliminar privada, que registra cada operação de mecanismo externo diretamente no Access History do Snowflake, acaba com esse trabalho. Cada evento de acesso vai para um único registro defensável: quem acessou o quê, onde e quando. Os arquitetos podem responder à auditoria em um só lugar.

O Iceberg Health Insights no Snowsight, em versão preliminar privada, oferece às equipes de plataforma uma visão operacional conectada de seu acervo Iceberg gerenciado externamente (status de atualização automática, descoberta de tabelas e sinais de atualidade) sem alternar entre consoles na nuvem ou criar monitoramento personalizado. Quando um banco de dados vinculado a catálogo revela metadados obsoletos ou um pipeline de atualização trava, as equipes veem isso em um só lugar e resolvem o problema antes que as consultas downstream retornem resultados desatualizados. À medida que esse recurso se expande para ficar disponível ao público, ele se estenderá por todo o acervo Iceberg (tanto gerenciado pelo Snowflake quanto externo), oferecendo a confiança operacional que as arquiteturas de lakehouse de produção exigem.

Figure 2: Instantly monitor your external table’s health by diagnosing table linking and refresh issues in a single dashboard.

Figure 3: Troubleshoot your table refresh issues with a single click with Cortex Code or drill down into actionable error details in Snowflake’s Refresh Issues view.

A resiliência pertence à base, não a um projeto separado. O failover e a replicação gerenciada do Iceberg do Snowflake, em breve em GA, estende o Account Replication e o failover para tabelas Iceberg gerenciadas pelo Snowflake, ajudando as equipes a tornar sua base de dados aberta mais resiliente a interrupções. A resiliência fica ainda mais forte com o Optimized Refresh, um novo recurso de replicação para grupos de failover agora em versão preliminar pública. Desenvolvido no mecanismo de replicação baseado em log de última geração do Snowflake, o Optimized Refresh rastreia as alterações à medida que ocorrem e aplica apenas o que precisa ser atualizado. Os clientes da versão preliminar tiveram uma performance de replicação entre 1,6 e 22 vezes mais rápida, ajudando as equipes a reduzir as metas de objetivo de ponto de recuperação (RPO) para cargas de trabalho de missão crítica, enquanto mantêm custos previsíveis com base no volume de dados replicados.

Com esses recursos integrados à plataforma Snowflake, as equipes podem fazer failover de dados, aplicações e pipelines com o mínimo de atrito operacional e sem rearquitetar seus ambientes. Isso dá às organizações a confiança para apostar tudo no Iceberg sem sacrificar a resiliência operacional que suas cargas de trabalho críticas exigem.

Controle sobre seus dados

O open lakehouse prometeu que os dados se moveriam menos e trabalhariam mais. Mas, para a maioria das empresas, a abertura terminava no formato da tabela. A governança se fragmentou, a semântica ficou isolada em silos e cada requisito de produção ainda exigia um projeto personalizado. A IA tornou essa fragmentação semântica e de governança impossível de ignorar. Agentes que raciocinam sobre dados obsoletos e desconectados corroem a confiança nos próprios sistemas que suas equipes estão criando.

O Interoperable Lakehouse oferece o que o formato por si só não conseguiria: interoperabilidade em todas as camadas, do armazenamento à governança e à semântica, em uma base conectada onde cada uma reforça as outras. O que isso significa na prática? Seus engenheiros escolhem o mecanismo certo para cada carga de trabalho sem duplicar dados. Sua equipe de governança define a política uma vez, e ela se mantém no Snowflake, Apache Spark, Trino e muito mais. Seu acervo Iceberg é observável, auditável e resiliente sem um projeto de operações separado. E suas iniciativas de IA são executadas em dados governados e semanticamente ricos desde o primeiro dia.

Isso é ter controle real sobre seus dados. Não é um slogan, é um princípio operacional. Projete sua arquitetura em torno do que sua empresa exige e a IA demanda, não do que seu fornecedor permite.

A base interoperável está aqui.

Desenvolva sobre ela.

Para começar a recuperar o controle sobre seus dados, visite a página do Interoperable Lakehouse do Snowflake e explore as ofertas do Snowflake. Saiba mais baixando o ebook gratuito "Building the Interoperable Lakehouse: Data Strategies for AI Leaders", ou assistindo ao webinar do TDWI, com o diretor de gerenciamento de produtos do Snowflake, James Roland-Jones. Em seguida, coloque a mão na massa com este laboratório virtual: "Build a Multi-Engine Stack on Snowflake Storage for Iceberg and Horizon Catalog".

Declarações prospectivas

Este conteúdo contém declarações prospectivas, inclusive sobre nossas futuras ofertas de produtos, e não representa um compromisso de entrega de quaisquer ofertas de produtos. Os resultados e as ofertas reais podem diferir e estão sujeitos a riscos e incertezas conhecidos e desconhecidos. Consulte nosso documento 10-Q mais recente para obter mais informações.

Autoria:

James Rowland-Jones

Director of Product Management

Carlos Nai

Product Marketing Lead, Data Lakes at Snowflake

Construa o lakehouse interoperável: Autonomia sobre seus dados

Aja sobre os dados onde eles estão

Governança universal

Pronto para as empresas por padrão

Controle sobre seus dados

Autoria:

James Rowland-Jones

Carlos Nai

Impulsionando a empresa agêntica: transformando o contexto corporativo em ações agênticas governadas

Anunciando o Anthropic Claude Fable 5 no Snowflake Cortex AI

Proteger a empresa agêntica começa com os dados

Subscribe to our blog newsletter
Get the best, coolest and latest delivered to your inbox each week

Onde os dadosfazem mais

Construa o lakehouse interoperável: Autonomia sobre seus dados

Aja sobre os dados onde eles estão

Governança universal

Pronto para as empresas por padrão

Controle sobre seus dados

Autoria:

James Rowland-Jones

Carlos Nai

Conteúdo relacionado

Impulsionando a empresa agêntica: transformando o contexto corporativo em ações agênticas governadas

Anunciando o Anthropic Claude Fable 5 no Snowflake Cortex AI

Proteger a empresa agêntica começa com os dados

Subscribe to our blog newsletterGet the best, coolest and latest delivered to your inbox each week

Onde os dadosfazem mais

Subscribe to our blog newsletter
Get the best, coolest and latest delivered to your inbox each week