Storage Snowflake per Apache Iceberg™ Tables: interoperabilità semplice con Snowflake

La promessa dell’“open lakehouse” è da sempre la scelta: dare a ogni team la possibilità di utilizzare il motore preferito, che si tratti di Snowflake o meno.
Tuttavia, con l’adozione di Apache Iceberg™ come formato di dati interoperabile, è emerso un nuovo collo di bottiglia. Sebbene il formato dati sia open, il bucket di archiviazione spesso rimane “self-managed”. Questo introduce un onere operativo nascosto: i team dedicano troppo tempo alla configurazione e alla gestione delle policy dei bucket cloud, oltre che a costose operazioni di manutenzione dello storage.
Oggi siamo lieti di annunciare la disponibilità al pubblico di Snowflake Storage for Apache Iceberg™ Tables su AWS e Azure. Questa release offre il meglio di entrambi i mondi: la piena interoperabilità di Apache Iceberg unita alla resilienza integrata, alle prestazioni e all’esperienza zero-management dell’archiviazione Snowflake.
Eliminare il peso dell’archiviazione self-managed
Da anni, i clienti Snowflake apprezzano la semplicità di archiviare i dati in Snowflake. Non devi preoccuparti di dove risiedono i file, di come vengono crittografati o di come vengono tracciati i metadati. Funziona e basta.
Tuttavia, con la crescita dei requisiti multi-engine, molti architetti si sentono costretti ad adottare architetture di archiviazione self-managed per rendere i propri dati accessibili a strumenti esterni. Questo cambiamento comporta spesso una curva di apprendimento ripida. In un ambiente self-managed, il data engineer è responsabile del lavoro più gravoso: configurare ruoli IAM complessi, gestire la crittografia a livello di bucket e garantire che ogni motore esterno rimanga sincronizzato con l’ultima versione della tabella.
Snowflake Storage per le tabelle Apache Iceberg™ elimina questo attrito. Ora puoi ospitare le Iceberg Tables direttamente sull’infrastruttura gestita da Snowflake. Per i tuoi amministratori, appare come qualsiasi altro dato archiviato in Snowflake; per i tuoi cluster Spark o Trino esterni, si presenta come una standard Iceberg Table ad alte prestazioni. Puoi finalmente dire sì a ogni data consumer senza ereditare il caos gestionale dell’archiviazione self-managed.
Tranquillità integrata: l’integrità dei dati come servizio
Open non vuol dire fragile. Uno dei rischi maggiori dell’archiviazione self-managed è l’assenza di una rete di sicurezza integrata.
Il costo di un singolo errore
Considera uno scenario comune: un data engineer incaricato di ripulire i dati “vecchi” in un bucket S3 self-managed per ridurre i costi di storage configura accidentalmente in modo errato una policy del ciclo di vita cloud o esegue uno script di pulizia che elimina una cartella di metadati critica o un insieme di file manifest ancora referenziati dalla versione corrente della tabella.
In una configurazione Iceberg self-managed tradizionale, questo errore è spesso catastrofico. Senza un meccanismo di ripristino integrato, la tabella diventa inconsistente. I motori restituiranno errori o, peggio, risultati di query incompleti. Il ripristino manuale dello stato può richiedere ore, se non giorni, di lavoro forense, sempre ammesso che sia possibile.
La rete di sicurezza Snowflake
Con Snowflake Storage for Apache Iceberg™ Tables, portiamo la nostra resilienza di livello enterprise nell’ecosistema Iceberg:
Fail-Safe: offriamo una finestra di ripristino gestita di sette giorni. Se i metadati vengono accidentalmente corrotti o eliminati, Snowflake può aiutare a ripristinarli a uno stato coerente entro la finestra di ripristino: un meccanismo di resilienza dei dati integrato, assente nell’archiviazione self-managed.
Replica cross-cloud: le funzionalità di business continuity sono integrate. Puoi replicare facilmente i tuoi dati Iceberg tra regioni e cloud, garantendo un’elevata disponibilità anche durante interruzioni a livello di provider.
Gestendo il layer di storage, Snowflake garantisce ai tuoi dati interoperabili la stessa architettura di durabilità delle tabelle interne più mission-critical archiviate in Snowflake.
Interoperabilità ottimizzata sull’intero stack
Riteniamo che archiviare i dati sia solo metà della sfida; l’altra metà consiste nel preparare i dati affinché siano pronti all’uso per ogni motore che li elabora.
Un problema comune nel lakehouse sono i file piccoli: le scritture frequenti creano migliaia di file di piccole dimensioni che degradano le prestazioni delle query su tutti i motori. Tradizionalmente, risolvere questo problema richiedeva comandi VACUUM o REORG manuali e un monitoraggio costante.
Snowflake Storage affronta questo problema attraverso l’ottimizzazione intelligente delle tabelle. Questa funzionalità agisce come un "autopilota" in background per la tua archiviazione, gestendo automaticamente task come la compattazione dei file e il clustering.
Inoltre, tutte le tabelle sono ottimizzate per le migliori prestazioni su Snowflake. Ma non ci siamo fermati qui. Per favorire una migliore interoperabilità sull’intero stack, abbiamo fornito parametri configurabili che consentono ai data engineer di ottimizzare il layout dell’archiviazione in base alle proprie esigenze specifiche. Regolando le impostazioni delle dimensioni dei file e gli schemi di partizionamento, puoi ottimizzare i dati scritti da Snowflake per i pattern di scansione specifici dei motori esterni, come Spark o Trino.
Il risultato è un miglioramento delle prestazioni su tutti i workload. Snowflake organizza i dati in modo ottimale rispettando la tua configurazione, riducendo la latenza delle query e migliorando l’efficienza dell’intero ecosistema dati.
Tutta l’interoperabilità, nessuna complessità
Snowflake Storage per le Apache Iceberg™ Tables è pensato per le organizzazioni che vogliono concentrarsi sulla strategia dati, non sulla manutenzione dell’archiviazione. Affidando a Snowflake la gestione dell’infrastruttura, ottieni una data foundation sicura, ottimizzata e resiliente, open a qualsiasi motore tu scelga.
Per iniziare
Creare una Iceberg Table su Snowflake Storage è semplice come creare una tabella nativa standard. Per creare la tua prima Iceberg Table utilizzando l’archiviazione gestita da Snowflake, esegui semplicemente:
CREATE ICEBERG TABLE my_iceberg_table_internal (col1 int)
CATALOG = SNOWFLAKE
EXTERNAL_VOLUME = SNOWFLAKE_MANAGED;Pronto a semplificare la tua architettura lakehouse? Scarica il nuovo ebook “Building the Interoperable Lakehouse: Data Strategies for AI Leaders” e consulta la nostra documentazione per iniziare oggi stesso con Snowflake Storage per le Apache Iceberg™ Tables.
Dichiarazioni previsionali
Questo contenuto include dichiarazioni previsionali, anche in merito alle nostre future offerte di prodotto, e non costituisce un impegno a fornire tali offerte. I risultati e le offerte effettivi potrebbero differire e sono soggetti a rischi e incertezze noti e non noti. Per ulteriori informazioni, consulta il nostro ultimo 10-Q.

