Estendere il Data Sharing Snowflake ai formati open table

Siamo lieti di annunciare un’importante espansione del data sharing zero-ETL di Snowflake: Ora è possibile condividere in modo semplice e sicuro formati di tabella aperti, tra cui Apache Iceberg e Delta Lake, tra regioni e cloud. Questa release consente ai provider di condividere in modo sicuro i dati archiviati in formati tabellari aperti su qualsiasi cloud e regione senza pipeline complesse e senza incorrere in costi di uscita esponenziali per query.
Il data sharing Snowflake è già leader sul mercato per capacità di collaborazione e adozione. Con un ecosistema di condivisione dei dati 2,5 volte più ampio rispetto ai principali concorrenti, la collaborazione Snowflake aumenta il valore di una base di utenti globale in crescita. Con migliaia di clienti che condividono già i dati, le aziende possono utilizzare la condivisione in formato tabellare open per ottenere il meglio di due mondi: la condivisione dei dati in formato aperto e tutti i principali vantaggi della condivisione Snowflake. I vantaggi includono:
Accesso ai dati in tempo quasi reale
Controlli di governance basati su policy per i dati condivisi di Snowflake Horizon Catalog
Cross-Cloud Auto-Fulfillment e ottimizzazione dei costi di uscita per una condivisione cross-region e cross-cloud semplificata ed economica
Consegna in aree regolamentate, tra cui il cloud governativo statunitense e Virtual Private Snowflake
Perché è importante?
Da molti anni i clienti Snowflake possono condividere i dati in modo sicuro e collaborare con un vasto ecosistema di clienti e partner. La condivisione dei dati è una pietra angolare della piattaforma Snowflake, utilizzata da molti clienti per sviluppare connessioni e creare ecosistemi di dati solidi nell’AI Data Cloud Snowflake.
Con l’introduzione della condivisione in formato open table, abbiamo esteso le funzionalità di collaborazione di Snowflake:
Dati archiviati esternamente a Snowflake nel cloud storage interno del cliente (AWS S3, Azure Storage, Google GCS)
Dati in formati open table, tra cui:
Apache Iceberg gestito da Horizon Catalog o da cataloghi esterni (AWS Glue, Apache Polaris)
Delta Lake gestito da cataloghi esterni (Databricks Unity, Hive Metastore)
Questo significa che anche le aziende che scelgono formati open table sono ora connesse all’AI Data Cloud e possono godere dei vantaggi di un ecosistema di dati in espansione.
Quale sfida risolve questo problema?
La maggior parte delle organizzazioni ha spesso bisogno di condividere formati di dati diversificati, sia internamente che esternamente, ma spesso incontra ostacoli come:
Sicurezza e conformità. L’applicazione di criteri di accesso granulari ai dati condivisi è essenziale per mantenere la sicurezza e la conformità.
Dispersione geografica e tra cloud: Collaborazione tra business unit (LOB, fornitori, clienti) spesso distribuite in regioni e cloud diversi, inclusi ambienti cloud commerciali e governativi.
Vari formati di dati: I dati esistono in diversi formati, come Apache Iceberg e Delta Lake.
Snowflake Data Sharing, e in particolare Open Table Format Sharing, risolve direttamente gli ostacoli principali che data engineer e data architect affrontano quando collaborano sui dati. Riduce le barriere geografiche e cloud con la possibilità di condividere tabelle in formato open, estende le funzionalità di governance di base e offre ai clienti la flessibilità necessaria per standardizzare i dati in un formato come Iceberg, il tutto consentendo alle organizzazioni globali di condividerli con qualsiasi business unit, fornitore e/o cliente.
Come funziona?
La condivisione in formato open table è abilitata da Cross-Cloud Auto-Fulfillment (supportato su cloud commerciali, Virtual Private Snowflake e governativi statunitensi), che semplifica la condivisione dei dati per Apache Iceberg e Delta Lake direttamente dal cloud storage. Puoi condividere questi dati con un consumer Snowflake in qualsiasi regione o cloud senza bisogno di gestire l’infrastruttura sottostante o mantenere processi ETL. Inoltre, la condivisione in formato open table ottimizza i costi di trasferimento dei dati tramite Egress Cost Optimizer, contribuendo a evitare addebiti imprevedibili e astronomici per query.
Snowflake Horizon Catalog fornisce controlli di governance completi che possono essere applicati ai dati in formato open table condivisi con gli utenti in regioni o cloud diversi. Questa funzionalità garantisce la residenza dei dati e facilita la conformità necessaria per la collaborazione, in particolare in o insieme a settori regolamentati, come i settori pubblico, dei servizi finanziari, Healthcare e Life Sciences.
Se combinato con Delta Direct e Catalog Federation (sfruttando Unity Catalog e Uniform IRC API), Snowflake Cross-Cloud Auto-Fulfillment estende questa funzionalità a una tabella Delta Lake residente nel cloud storage e scritta da motori Delta come Microsoft Fabric o Databricks o gestita da cataloghi come Databricks Unity o Hive Metastore. Questo estende la condivisione delle tabelle aperte alle tabelle Delta Lake con i consumer Snowflake, in qualsiasi regione o cloud, anche in questo caso, senza la necessità di gestire l’infrastruttura sottostante.

Esempio di condivisione di tabelle Apache IcebergTM gestite su Snowflake
La condivisione in formato open table consente di condividere le tabelle Apache Iceberg e Delta Lake tra regioni o cloud ed è disponibile solo tramite Cross-Cloud Auto-Fulfillment. Per dettagli sul funzionamento dell’auto-fulfillment, consulta “Auto-fulfillment per listing”. Per maggiori informazioni sul funzionamento della condivisione in formato open table, consulta “Using auto-fulfillment with open format tables” nella documentazione.
Ecco come iniziare a condividere i formati open table, utilizzando l’esempio della condivisione delle Iceberg Tables.
Fase 1: Crea una tabella con un formato di tabella aperto (ad esempio Iceberg)
Accedere all’account del provider e creare un formato open table (ad esempio Iceberg) seguendo i comandi SQL elencati di seguito. Per maggiori informazioni su come creare tabelle Iceberg o gestite da cataloghi esterni, consulta la documentazione CREATE ICEBERG TABLE qui.
Comando SQL per la creazione di una Iceberg Table in AWS S3
create database sample_db_laf_<your alias>;
create schema sample_sc;
create warehouse xsmall;
use warehouse xsmall;
-- Create an external volume for managed table
create or replace external volume managed_exvol
STORAGE_LOCATIONS = (
(
NAME = 'my-s3-us-west-2'
STORAGE_PROVIDER = 'S3'
STORAGE_BASE_URL = 's3://datalake-storage-team/iceberg/table_replication_west'
STORAGE_AWS_ROLE_ARN = 'arn:aws:iam::631484165566:role/datalake-storage-integration-role-2'
)
);
-- create iceberg managed table
create or replace iceberg table sample_iceberg_table_for_laf_testing (
symbol string,
description string
) EXTERNAL_VOLUME = 'managed_exvol'
catalog=snowflake
BASE_LOCATION='sample_iceberg_table_for_laf_testing';
insert into sample_iceberg_table_for_laf_testing values ('A', 'Adam'), ('E', 'Eve'), ('B', 'Bob');
insert into sample_iceberg_table_for_laf_testing values ('D', 'Dan'), ('C', 'Cat'), ('F', 'Fan');
select * from sample_iceberg_table_for_laf_testing;Fase 1b (opzionale): Proteggi i dati con controlli di governance basati su policy
Prima di condividere, sfrutta il pieno supporto delle funzionalità di governance di Snowflake Horizon Catalog sulle tue tabelle Apache Iceberg o Delta gestite da Horizon ed esterne, tra cui:
Criteri di governance granulari: accesso alle righe, criteri di mascheramento
Politiche di rafforzamento della privacy: politiche di aggregazione, politiche di unione, politiche di proiezione
Inoltre, puoi verificare e monitorare la condivisione con un audit completo utilizzando l’utilizzo dell’account e la cronologia degli accessi.
Per ulteriori informazioni, vedi gli esempi in “Condivisione dati protetta da policy”.
Fase 2: Crea un catalogo di prodotti per i tuoi clienti in tutte le regioni con pochi clic
Nel tuo provider account, crea un annuncio privato tramite l’interfaccia Snowsight cliccando su +Listing e selezionando Only Specified Customers, quindi esegui le seguenti operazioni:
Specifica il nome di un prodotto
Allega la tabella Iceberg che hai creato
Aggiungi una descrizione
Specifica l’alias dell’account consumer
Pubblica il listing
I passaggi dettagliati sono disponibili qui.
Stato: Utilizzando il ruolo ACCOUNTADMIN, è possibile controllare lo stato del listing nell’account del provider accedendo a Data Sharing -> Provider Studio -> Listings.
Cross-Cloud Auto-Fulfillment garantisce che i tuoi dati siano consegnati in modo sicuro e automatico ai consumatori in qualsiasi regione o cloud.

Fase 3: I consumatori all’interno di una o più organizzazioni possono accedere al tuo catalogo
I data consumer possono andare su Data Products -> Private Sharing per trovare l'elenco privato, quindi fare clic su Get. Il consumatore può essere nello stesso account (condivisione interna), della stessa organizzazione (marketplace interno) o in organizzazioni diverse (condivisione esterna sul Marketplace Snowflake).

Concludendo
Snowflake estende la sua leadership nel data sharing zero-ETL integrando i formati open table per consentire la condivisione dei dati sicura, governata e ottimizzata per i costi su qualsiasi cloud e regione. Per vedere queste nuove potenti funzionalità in azione e scoprire come iniziare, guarda questa pagina delle soluzioni con una demo e quickstart!


