Snowflake simplifica a arquitetura de dados, a governança e a segurança para aumentar o valor de todas as cargas de trabalho

Nos dias de hoje, é muito fácil que a infraestrutura de dados de uma organização pareça mais um labirinto, com um acúmulo de soluções locais aqui e ali. Embora algumas empresas encontrem meios de unir muitas ferramentas com pipelines complexos, não seria melhor remover algumas dessas etapas? E se você pudesse simplificar o seu trabalho e, ao mesmo tempo, criar a arquitetura que melhor se adapte às suas necessidades de negócios e tecnologia?
A Snowflake tem o compromisso de fazer isso, adicionando continuamente recursos para ajudar nossos clientes a simplificar a forma de desenvolver a infraestrutura de dados de suas organizações. Seja unificando dados transacionais e analíticos com Hybrid Tables, melhorando a governança de um lakehouse aberto com o Snowflake Open Catalog ou aprimorando a detecção e o monitoramento de ameaças com o Snowflake Horizon Catalog, a Snowflake está reduzindo o número de “partes em movimento” para oferecer aos clientes um serviço totalmente gerenciado que simplesmente funciona.
Na conferência BUILD 2024, anunciamos várias melhorias e inovações desenvolvidas para ajudar você a criar e gerenciar sua arquitetura de dados nos seus termos. Veja, a seguir, uma análise mais detalhada.
Simplificar a arquitetura de dados para obter mais valor
Para casos de uso híbridos, analíticos e transacionais, juntamente com dados de streaming e não estruturados, o usuário pode criar soluções com o Snowflake que exigem menos movimentação de elementos. Isso significa que o usuário pode investir menos tempo e dinheiro em configurações manuais e gerenciamento de silos e, em vez disso, direcionar esses recursos para descobrir formas inovadoras de uso dos dados.
Unifique cargas de trabalho transacionais e analíticas no Snowflake para obter mais simplicidade
Muitas empresas precisam manter dois bancos de dados separados: um para lidar com cargas de trabalho transacionais e outro para as cargas de trabalho analíticas. O Snowflake Unistore consolida ambos em um único banco de dados para que os usuários obtenham uma arquitetura drasticamente simplificada com menos movimentação de dados e controles consistentes de segurança e governança.
O Unistore é viabilizado pelas Hybrid Tables (agora disponíveis ao público em regiões comerciais da AWS), que possibilitam leitura e gravação rápidas de linha única para dar suporte a cargas de trabalho transacionais. Com as operações pontuais rápidas e de alta simultaneidade das Hybrid Tables, o usuário pode armazenar o estado da aplicação e do fluxo de trabalho diretamente no Snowflake, fornecer dados sem ETL reverso e criar aplicações transacionais leves, mantendo um modelo único de governança e segurança para dados transacionais e analíticos, tudo em uma única plataforma.

Realize a ingestão de dados com mais eficiência e gerencie os custos
Para os dados gerenciados pela Snowflake, estamos adotando recursos que ajudam você a acessar os dados de forma fácil e com boa relação custo/benefício. Com o Snowpipe para Apache Kafka (em breve em versão preliminar pública no AWS e Microsoft Azure), um mecanismo "pull", em vez do conector "push", permite que você faça a extração e a ingestão de eventos do Apache Kafka em sua conta Snowflake diretamente sem hospedar seu próprio cluster Kafka Connect. Isso reduz a complexidade geral de ter de preparar os dados de streaming para uso: Basta criar a integração de acesso externo com sua solução Kafka já existente.
O SnowConvert é uma ferramenta de conversão de código fácil de usar que acelera as migrações do sistema legado de gestão de banco de dados relacional (relational database management system, RDBMS) para o Snowflake. Além das avaliações e conversões de tabela gratuitas, o SnowConvert agora oferece suporte à conversão precisa de visualizações de banco de dados do Teradata, Oracle ou SQL Server gratuitamente.
As novas políticas de ciclo de vida do armazenamento (em versão preliminar privada) representam mais uma oportunidade de reduzir os custos ao excluir registros automaticamente ou arquivá-los para um nível de baixo custo ao atender à sua condição de política personalizada. Isso ajuda a otimizar o armazenamento e, ao mesmo tempo, manter a conformidade regulatória de maneira fácil e dimensionável.
Desbloqueie o valor de documentos não estruturados com extração e integração automatizadas de dados baseadas em IA
Todos os dias, empresas de todos os tipos são inundadas de documentos, como faturas, recibos, avisos, formulários entre outros. No entanto, obter e usar as informações desses documentos continua sendo um processo manual, demorado e sujeito a erros. Com o Document AI (disponível ao público para AWS e Microsoft Azure), um fluxo de trabalho Snowflake totalmente gerenciado que transforma documentos não estruturados em tabelas estruturadas usando um LLM integrado, o Arctic-TILT, você pode processar documentos de forma inteligente e em escala. Com a opção de ajuste otimizado por meio de uma interface de usuário fácil de usar, usuários empresariais e especialistas sem conhecimento específico de inteligência artificial (IA) podem se envolver intensamente na criação e no refinamento de modelos antes de recorrer a engenheiros de dados para operacionalizar os pipelines. A Universidade da Flórida está usando o Document AI para extrair dados de PDFs e fontes de terceiros de maneira eficiente. Isso simplifica a auditoria de dados e elimina semanas de trabalho em processos manuais.
Empregue o Snowflake Horizon Catalog para proteger e entender melhor as contas e os ativos de dados
Entre os melhores benefícios do Snowflake estão os recursos integrados de conformidade, segurança, privacidade, descoberta e colaboração, líderes do setor, que fazem parte do catálogo Horizon. Esses recursos ajudam a proteger e preservar a privacidade da sua conta, usuários e ativos de dados. Constantemente, estamos melhorando nossa plataforma para ajudar nossos clientes a prever e evitar possíveis ameaças.
Use recursos de segurança aprimorados e inovações do Trust Center para prever ameaças antes que elas ocorram
Em uma outra etapa fundamental para eliminar acessos somente com senha, a Snowflake está implementando, por padrão, a autenticação multifator (multi-factor authentication, MFA) para todos os usuários humanos recém-criados em qualquer conta Snowflake. Também estamos implementando a Leaked Password Protection (LPP) (em breve disponível ao público), que vai verificar e desativar automaticamente as senhas de usuário descobertas na dark web. Isso oferece proteção integrada contra senhas vazadas e ajuda a limitar o potencial para a filtragem de dados. Usuários comprometidos podem entrar em contato com os administradores de contas para redefinir suas senhas.
Para autenticação de API, o Snowflake oferece Programmatic Access Tokens versáteis e fáceis de usar para desenvolvedores (em breve, em versão preliminar privada), a fim de simplificar a experiência dos desenvolvedores para o acesso a aplicações e, ao mesmo tempo, aprimorar a segurança, incluindo o escopo e a expiração de tais tokens. E o novo recurso Outbound Private Link Connectivity (External Access, disponível ao público no AWS e no Azure; External Stage, em versão preliminar pública no Azure e, em breve, em versão preliminar pública no AWS; e External Function, disponível ao público no Azure) conecta-se a serviços externos para provedores de serviços de nuvem e mantém o tráfego de dados sempre dentro da rede CSP, nunca passando pela Internet pública, para minimizar o risco de exposição dos dados e outras ameaças cibernéticas.
As melhorias do Trust Center, uma interface que ajuda a avaliar e monitorar a postura de segurança da sua conta Snowflake, incluem um novo Threat Intelligence Scanner Package (disponível ao público) para detectar que usuários (humanos ou de serviço) representam um risco, com mitigação clara sobre como lidar com essas vulnerabilidades. Com foco no futuro, o Trust Center Extensibility (em breve, em versão preliminar privada) vai permitir que os clientes adicionem pacotes personalizados de scanner ao Trust Center dos nossos parceiros, que estão disponíveis como Snowflake Native Apps no Snowflake Marketplace.

Implementar uma melhor governança de dados, monitorando e lidando com dados confidenciais de modo fácil
A Lineage Visualization Interface (em versão preliminar pública) permite que os clientes acompanhem, com facilidade, o fluxo de dados e os ativos de aprendizado de máquina (machine learning, ML) por meio de uma interface interativa no Snowsight. Com esta nova interface de usuário, os clientes poderão visualizar com facilidade o modo como os objetos posteriores podem ser afetados pelas modificações que ocorrem nas etapas anteriores do processo. Além disso, os gestores podem adotar medidas de grande porte para propagar tags e políticas de proteção de colunas mais adiante no fluxo de trabalho. Para os ativos de ML, os clientes podem rastrear a linhagem completa de recursos e modelos a partir de dados para obter insights de reprodutibilidade, conformidade mais sólida e observabilidade simplificada.

Os usuários também podem automatizar facilmente a classificação, a tagging e o mascaramento de dados confidenciais em qualquer esquema com a função Sensitive Data Auto-Classification (em breve, em versão preliminar pública). Isso por meio de classificadores que já vêm prontos para uso ou classificadores personalizados criados usando SQL.
Os dados confidenciais podem ter um valor enorme, mas muitas vezes estão bloqueados por questões de privacidade. E se a sua empresa pudesse permitir que mais pessoas acessassem os dados para colaborar com eles, melhorando a amplitude e a profundidade dos dados confidenciais que podem ser analisados? O Snowflake torna isso possível com as políticas de privacidade diferenciais (disponíveis ao público), que reduzem o risco de identificação ou a reengenharia de dados confidenciais, e com a geração de dados sintética (versão preliminar pública), que usa dados originais de produção para criar uma réplica para testes e análises.
Uma nova visualização para o histórico de acesso a toda a organização (em breve em versão preliminar pública) dá aos administradores e gestores de dados, que compartilham dados confidenciais entre contas dentro da mesma organização, um registro centralizado de quem acessou quais dados confidenciais, simplificando a geração de relatórios de auditoria e fornecendo a visibilidade detalhada necessária para demonstrar a conformidade com os requisitos regulatórios. Os administradores de dados também podem configurar Request for Access (versão preliminar privada) ao definir uma nova propriedade de visibilidade em objetos, juntamente com os detalhes do contato, para que a pessoa certa possa ser facilmente contatada para autorizar o acesso.
Simplifique a engenharia e a governança de dados em um lakehouse aberto
Desde a ingestão e a integração até a transformação e a segurança, o processo de gestão de um data lake pode ser complexo e caro. Para organizações com arquiteturas de lakehouse, a Snowflake desenvolveu recursos que simplificam a experiência de criar pipelines e proteger data lakehouses com o Apache Iceberg™, o principal formato de tabela de código aberto.
Simplifique os pipelines bronze e prata para o Apache Iceberg
Estamos tornando ainda mais fácil o uso das tabelas Iceberg com o Snowflake em cada estágio.
Para a ingestão de dados, é possível usar o Snowpipe Streaming para carregar de forma econômica os dados de streaming nas tabelas Iceberg com um SDK (disponível ao público) ou um Kafka Connector (em versão preliminar pública). Para casos de uso em lote e microbatch que adicionam o Iceberg aos data lakes já existentes, estamos introduzindo novos modos de carga para o COPY e o Snowpipe (disponíveis ao público) que acrescentam arquivos Apache Parquet às tabelas Iceberg no estado, sem reescrever os arquivos. Anteriormente conhecido como Parquet Direct durante a fase de versão preliminar privada, esse novo parâmetro para o COPY e o Snowpipe ajuda a melhorar o desempenho dos data lakes legados, reduzindo os custos de interação. O Snowflake Delta Lake Direct (em versão preliminar pública) permite acessar suas tabelas do Delta Lake como tabelas Iceberg para camadas bronze e prata sem os requisitos de Universal Format (UniForm). Em breve, o suporte à atualização automática e à geração de metadados Iceberg chegará ao Delta Lake Direct.
Embora existam outras ferramentas do ecossistema Iceberg que dão suporte a pipelines de captura de dados alterados (change data capture, CDC), elas envolvem complexidade de orquestração para atender aos requisitos de atualização. As Snowflake Dynamic Apache Iceberg Tables (disponíveis ao público nesta semana) simplificam substancialmente os pipelines de CDC para Iceberg com uma abordagem declarativa: escreva a consulta do resultado desejado, especifique um atraso e deixe o Snowflake cuidar do resto. Em breve, em versão preliminar privada, será possível usar Iceberg Tables de catálogos externos como fonte para Dynamic Iceberg Tables. Embora o Snowpark Python ofereça suporte para leitura e gravação em tabelas Iceberg, agora você também pode criar tabelas Iceberg com o Snowpark Python (disponível ao público). Por fim, é possível clonar Iceberg Tables (em versão preliminar pública) sem duplicar o armazenamento. Isso permite que você experimente as Iceberg Tables de forma segura e econômica durante os testes e o desenvolvimento.
A integração do Snowflake e Iceberg Tables no seu data lakehouse ficou mais simples por meio de várias ferramentas, incluindo suporte para gravação para o Microsoft Fabric OneLake (versão preliminar pública) como local de armazenamento. Use este quickstart guide para saber como os clientes comuns agora podem utilizar ambas as plataformas em uma única cópia de dados, o que pode ajudar a reduzir os custos de armazenamento e pipeline. O Snowflake permite ainda que os usuários consultem facilmente as Iceberg Tables a partir de qualquer catálogo Iceberg REST (disponível ao público) ou de qualquer tabela Iceberg gerenciada externamente que use merge-on-read (versão preliminar privada). Para ajudar a garantir que você esteja consultando as últimas versões de suas tabelas, você pode adicionar uma configuração de atualização automática (em breve, disponível ao público) às definições de integração de tabelas e catálogos do Iceberg no SQL.
Colaboração fácil e segura com o Snowflake Open Catalog, um serviço gerenciado Snowflake para Apache Polaris
Em julho de 2024, a Snowflake lançou em open source um catálogo para Apache Iceberg, agora conhecido como Apache PolarisTM (em incubação), que permite a interoperabilidade de muitos mecanismos em uma única cópia de dados, sem cópias ou movimentações desnecessárias de dados. O Snowflake Open Catalog, um serviço totalmente gerenciado para Apache Polaris, agora está disponível ao público, oferecendo aos usuários todas as vantagens do Polaris (sem limite por fornecedor, flexibilidade e segurança entre mecanismos), além da confiabilidade, segurança, escalabilidade e suporte que facilitam o início e a segurança de uso. Agora, as equipes de sua organização podem trabalhar com data lakes de forma segura com controles de acesso consistentes para muitos mecanismos (de leitura e gravação), como Apache FlinkTM, Apache SparkTM, Presto e Trino.

Para apoiar ainda mais a colaboração e a continuidade dos negócios, também adicionamos suporte Iceberg a recursos como replicação (privada) e execução automática entre nuvens (versão preliminar privada). É possível replicar tabelas Iceberg gerenciadas pelo Snowflake a partir da fonte para contas-alvo com seu próprio armazenamento de objeto, adicionando o banco de dados principal e o volume externo a um grupo de failover. E ao simplesmente configurar uma oferta contendo uma tabela Iceberg gerenciada pelo Snowflake para estar disponível em várias regiões, os clientes podem compartilhar essas tabelas com consumidores em outras nuvens e regiões.
Saber mais
A arquitetura de dados não precisa ser um labirinto de soluções pontuais que não apenas limitam a produtividade, mas também ameaçam a segurança e a governança. Com essas melhorias em nossa plataforma unificada, a Snowflake visa simplificar ainda mais o que é complexo e, ao mesmo tempo, oferecer flexibilidade para que os clientes possam criar arquiteturas que melhor atendam às suas necessidades.
Para saber mais sobre esses lançamentos e como a Snowflake ajuda as organizações a usar os dados de acordo com sua necessidade, assista à palestra de abertura da BUILD 2024 ou as sessões a seguir: