Sviluppa il controllo sui tuoi dati nell’era dell’AI

La promessa dell’open lakehouse immagina una singola copia governata dei dati, accessibile da qualsiasi motore, ma questa visione è stata a lungo frenata dalla “gravità proprietaria”. E se Apache Iceberg™ è stata la prima risposta della community al tema dell’interoperabilità dei dati, oggi un formato aperto da solo non basta più.
Nell’era dell’AI, silos di dati, governance e frammentazione semantica sono un freno all’innovazione. Quando i team non possono agire sui dati dove risiedono, sono costretti a spostarli, con un aumento dei costi e la creazione di dati “rumorosi” privi del ricco contesto semantico di cui l’AI ha bisogno. Le iniziative AI vengono compromesse prima ancora di iniziare.
In Snowflake stiamo costruendo un futuro in cui la piena interoperabilità diventa realtà. Collaborando con la community su dati, governance e interoperabilità semantica, aiutiamo i clienti a superare una volta per tutte i silos di dati e la frammentazione multilivello.
Il risultato è che gli utenti hanno pieno controllo sui propri dati. Gli utenti decidono come e da dove agire in modo sicuro su una singola copia logica dei dati per qualsiasi operazione, senza compromettere controlli di governance e contesto semantico.
Progettare un’architettura che dia controllo sui dati
Il controllo sui dati non può essere garantito da un singolo vendor né con la sola interoperabilità dei dati. Richiede interoperabilità a ogni livello dell’architettura. Per realizzare questa visione, le soluzioni devono basarsi su iniziative aperte, ampiamente riconosciute e guidate dalla community, che privilegino un’interoperabilità neutrale rispetto ai vendor.
Interoperabilità dei dati
Arrivare a un punto in cui gli utenti hanno pieno controllo sui propri dati, indipendentemente dal motore utilizzato, parte da un formato tabellare comune. Grazie al supporto nativo diffuso su più piattaforme e a una community attiva, Iceberg è quel formato. Più recentemente, la community ha raggiunto un traguardo cruciale: Iceberg v3. Iceberg v3 amplia le capacità esistenti per estendere l’interoperabilità dei dati a casi d’uso critici, tra cui dati semi-strutturati, change data capture (CDC) e altro ancora.
Oggi, mentre ci riuniamo per l’Iceberg Summit a San Francisco, siamo felici di annunciare l’imminente disponibilità generale di un supporto più ampio alle funzionalità v3.
Casi d’uso supportati da Iceberg v3
Supportando un ampio insieme di funzionalità v3, una quota ancora maggiore dei dati dei clienti diventa accessibile da più motori che mai. I clienti possono supportare i seguenti casi d’uso con Snowflake per tabelle Apache Iceberg, gestite dall’Horizon Catalog Snowflake o da qualsiasi altro catalogo:
- Tipo di dato VARIANT: Consente di gestire dati semi-strutturati all’interno di una tabella Iceberg con la possibilità di utilizzare lo shredding, combinando prestazioni strutturate e flessibilità semi-strutturata.
- Row lineage: Supporta il CDC a livello di riga tracciando le modifiche anche su più motori.
- Deletion vectors: Offre una modalità più performante per le eliminazioni a livello di riga, riducendo anche le difficoltà di manutenzione associate ai file di eliminazione posizionale.
- Timestamp con precisione al nanosecondo: Supporta una maggiore precisione temporale, comune nei dati finanziari ad alta frequenza, nella telemetria degli eventi e nei dati dell’Internet of Things.
- Tipo geospaziale: Consente l’archiviazione nativa e il pruning delle informazioni geometriche.
Abbattere i silos transazionali con pg_lake
Non tutti i dataset nascono in un lake analitico. Molte delle informazioni più preziose di un’azienda risiedono in database transazionali come Postgres. Storicamente, il mondo transazionale e quello analitico sono rimasti separati in silos. Per farli comunicare, i team dovevano collegarli con pipeline di dati che spostavano i dati a valle.
Per colmare questo divario, Snowflake ha sviluppato e reso open source pg_lake. Questa estensione trasforma Postgres da database standard a componente funzionale di un data lakehouse. pg_lake aggiunge ai database due nuove capacità:
- Può interrogare i dati in place: consente a Postgres di leggere direttamente file come Parquet e CSV dal data lake, senza complessi processi di caricamento.
- Può gestire nativamente tabelle Iceberg, utilizzando Postgres stesso come livello di gestione.
Ora dati transazionali e analitici possono condividere lo stesso linguaggio aperto.
Portabilità della governance: Apache Polaris™
I controlli di governance e l’accesso sicuro devono seguire i dati. Per questo, due anni fa, abbiamo reso open source e donato un catalogo Iceberg, oggi Apache Polaris, e collaborato con la community per aiutare questo catalogo open source a diventare un Top-Level Project dell’Apache Software Foundation. Il nostro obiettivo è costruire un futuro in cui i controlli di accesso granulari Snowflake, o quelli di qualsiasi altra piattaforma, vengano applicati in modo coerente ed efficiente su qualsiasi motore e su qualsiasi ambiente di calcolo, senza costringere i clienti a scegliere tra sicurezza e flessibilità di un lakehouse interoperabile.
Storicamente, l’autorizzazione è stata incorporata direttamente nei motori di database, vincolando i clienti su due livelli: definizione ed esecuzione delle policy. Tuttavia, il problema non è che i clienti non si fidino di questi motori nell’applicazione delle regole, perché si fidano, e si sono sempre fidati, ma piuttosto che il controllo granulare degli accessi (FGAC) richiede capacità di calcolo per comprendere ed eseguire tali regole.
Con Apache Polaris stiamo interrompendo questo schema. Sviluppando standard per Policy Exchange, Governance Federation e Read Restriction APIs, stiamo creando un modo standardizzato per scambiare policy e un meccanismo di fiducia per gestirne l’applicazione tra piattaforme diverse. Utilizzando le Read Restriction APIs, una piattaforma può condividere regole di accesso già valutate che un motore downstream può applicare direttamente. In questo modo la governance accompagna davvero i dati, eliminando il pesante “compute tax” della materializzazione dei dati e consentendo un’applicazione coerente indipendentemente dal motore che accede alle informazioni.
L’obiettivo è semplice. I controlli granulari di sicurezza e governance, sia su Horizon Snowflake sia su qualsiasi altro catalogo supportato, devono essere applicati in modo coerente su qualsiasi motore, senza materializzazione server-side né penalizzazioni delle prestazioni.
Contesto semantico: dare solide basi all’AI con OSI
Gli agenti AI sprecano token e “indovinano” i significati quando la logica di business è bloccata in silos proprietari. Per affrontare questo problema, stiamo sviluppando Open Semantic Interchange (OSI), una specifica vendor-neutral per metriche, dimensioni e relazioni che rende il contesto semantico aperto e interoperabile quanto Iceberg stesso. La prima specifica OSI è già disponibile con licenza Apache 2, sostenuta da una coalizione di oltre 35 leader del settore, tra cui Salesforce, dbt Labs e Databricks, con l’impegno a evolvere verso una governance neutrale guidata da una fondazione.
I clienti Snowflake possono iniziare già oggi con le semantic views nell’Horizon Catalog, offrendo a Snowflake Cortex AI e alle applicazioni agentiche la “mappa della verità” governata di cui hanno bisogno per ragionare con accuratezza, costruendo al contempo sugli stessi elementi fondamentali che OSI sta standardizzando a livello di settore.
Diventare più open
Il nostro impegno per dare agli utenti pieno controllo sui propri dati rappresenta un cambiamento fondamentale nella nostra cultura ingegneristica. Snowflake non è più solo un utilizzatore di open source, ma costruisce insieme alla community. Siamo orgogliosi che questo cambiamento ci abbia permesso di collaborare con la community per rendere il controllo sui dati una realtà per tutti.
- Oltre 9000 contributi: Negli ultimi due anni, i nostri ingegneri hanno realizzato migliaia di commit e pull request su progetti open source.
- Trasparenza operativa: Costruiamo in modo aperto e presentiamo proposte, come le collations in Iceberg, per raccogliere feedback pubblici e costruire consenso insieme alla community.
- Iceberg v4: Siamo già attivi sulla prossima frontiera, collaborando a una riprogettazione del metadata core per ridurre la latenza dei workload di streaming, inclusi single file commit/adaptive metadata tree, abilitando Parquet manifests e miglioramenti all’indicizzazione.
Il futuro appartiene a tutti
Perché una vera interoperabilità aperta dei dati diventi realtà, tutti dobbiamo fare la nostra parte: dopotutto, è una responsabilità collettiva. Questo significa andare oltre la “gravità proprietaria”, perché è ciò che richiede l’era dell’AI.
Nessun singolo vendor può risolvere da solo il problema dei silos e della frammentazione dei dati. Serve una community ampia e diversificata di utenti, vendor e organizzazioni che lavori verso questo obiettivo comune. Solo allora potremo aiutare i team dati ovunque a realizzare la promessa dell’open source: avere pieno controllo sui propri dati.
Se sei all’Iceberg Summit, vieni a incontrare gli ingegneri Snowflake che scrivono le PR e revisionano le proposte di specifica. Il lavoro è pubblico, le porte sono aperte e un futuro in cui gli utenti hanno pieno controllo sui propri dati appartiene a tutti.
- Vuoi conoscere meglio Iceberg? Scopri di più sul formato di tabella aperto con un nuovo corso vendor-neutral guidato dal membro PMC Russell Spitzer.
- Iscriviti alla nostra newsletter Open Source at Snowflake per restare aggiornato sul nostro lavoro nei progetti e nelle community open source.
- Visita la pagina Open Source at Snowflake per scoprire di più sui nostri committer e maintainer, insieme ad alcuni dei progetti open source a cui teniamo di più.
- Scarica il nuovo ebook Building the Interoperable Lakehouse: Data Strategies for AI Leaders, con best practice su come costruire con Apache Iceberg, storie di clienti come Goldman Sachs e Indeed e molto altro.





