Prepara il tuo lakehouse AI-ready

I team di data engineering subiscono oggi una pressione senza precedenti. Avevano il compito di creare la data foundation per l’AI generativa e l’analisi avanzata, ma secondo gli studi un sorprendente 75% dei progetti AI non arriva in produzione. Perché?
Il problema non sono i modelli AI, ma le data foundation frammentate su cui si basano.
I data engineer di oggi sono spesso costretti a vestire i panni di un vigile del fuoco, trascorrendo il loro tempo prezioso a spegnere gli incendi e a fare lavori di manutenzione ordinaria nella loro infrastruttura invece di innovare. Aggregano costantemente pipeline di dati rigide e complesse, correggono dipendenze interrotte e gestiscono infrastrutture frammentate distribuite su vari silos.
Siamo lieti di annunciare la disponibilità generale (GA) di funzionalità avanzate di data engineering per formati tabellari aperti su Snowflake, che consentono a qualsiasi organizzazione di creare un lakehouse unificato, governato e ad alte prestazioni per l’era dell’AI.
Questi miglioramenti eliminano le scelte obbligate del passato tra flessibilità e semplicità, apertura e sicurezza, vincolo e interoperabilità. Ecco come:
Utilizza database collegati a cataloghi (GA): Gestisci qualsiasi catalogo Iceberg REST, inclusi AWS Glue, Databricks Unity e Microsoft OneLake, il tutto da un unico ambiente di sviluppo Snowflake per scoprire e accedere automaticamente a dati aggiornati. Questo mantiene la promessa zero-ETL del lakehouse, fornendo al contempo un’interoperabilità e una potenza di elaborazione senza precedenti con il motore Snowflake dalle prestazioni eccellenti.
Scrivi in qualsiasi tabella Apache Iceberg™ (GA): Il data engineering completo è ora supportato per qualsiasi Iceberg Table, indipendentemente dal catalogo Iceberg. Gli utenti possono centralizzare non solo la discovery, ma anche le operazioni di ingestion, trasformazione e modellazione sulla piattaforma unificata e completamente gestita Snowflake. Il risultato è che dedicheranno più tempo all’innovazione e meno tempo alla gestione dell’infrastruttura.
Sfrutta l’ottimizzazione automatica Iceberg: Ottieni la flessibilità dei formati aperti senza l’overhead operativo. Con Snowflake, ora è possibile ottimizzare le dimensioni dei file e le partizioni (ora in GA) per l’intero ecosistema Iceberg per ottimizzare le prestazioni, indipendentemente dal catalogo o dal motore. Inoltre, automatizza facilmente le operazioni di manutenzione delle tabelle (ora in private preview), come snapshot in scadenza, compattazione dei file e riscrittura dei manifest, per prestazioni di query superiori e gestione semplificata in tutto il tuo lakehouse.
Condividi i data asset su formati aperti (GA): La condivisione sicura dei dati zero-ETL di Snowflake ora supporta sia tabelle Iceberg che Delta Lake indipendentemente dal catalogo. Ciò significa condividere in modo semplice e sicuro i formati di tabella aperti tra regioni e cloud diversi, con criteri di sicurezza e governance persistenti per i clienti dei dati.
Queste soluzioni sbloccano completamente la suite di soluzioni di data engineering e collaboration di Snowflake, dall’ingestion all’impatto aziendale, per aiutare più organizzazioni a superare la complessità dei dati e realizzare il proprio potenziale AI.
Superare la complessità dei dati: il nuovo paradigma del data engineering
Il passaggio a un vero data lakehouse pronto per l’AI richiede la rimozione di tre importanti punti di attrito che affliggono i moderni team dati: dedicare tempo a costruire architetture dati rigide e frammentate, correggere pipeline rotte e complesse e gestire una governance incoerente tra silos.
Ecco come le funzionalità arrivate adesso in GA ed esistenti di Snowflake risolvono questi problemi per consentire ai team di data engineering di concentrarsi sulla fornitura di dati affidabili per l’AI.
Connettere i dati in modo sicuro, ovunque risiedano
La promessa del lakehouse risiede nella sua flessibilità aperta e multiformato, ma questa visione è spesso compromessa dalla complessità della gestione di metadati e cataloghi tra team, regioni e cloud diversi. Per superare questa sfida, stiamo realizzando la visione di un lakehouse unificato, connesso e governato.
Supera la frammentazione dei dati esistenti con i database collegati ai cataloghi e connetti i nuovi dati a costi superiori:
Connetti nuovi dati con vantaggi economici: Ottieni un modello di prezzo più semplice e prevedibile basato sul volume di dati, che ha prodotto una riduzione del costo di ingestion di oltre il 50% per i clienti Business Critical/Virtual Private Snowflake Edition (con una distribuzione completa prevista a breve). Con Snowpipe, insieme alla Snowpipe Streaming API, puoi portare i dati alla latenza che preferisci o semplicemente connettere dati multimodali da qualsiasi luogo utilizzando Snowflake Openflow, un servizio di integrazione low-code gestito.
Espandi il tuo ecosistema Iceberg: Accedi ai dati nelle tabelle Delta con Delta Direct e Parquet con semplici trasformazioni di metadati per una visione veramente unificata dell’intero patrimonio di dati.
Sblocca i dati pronti per l’AI: Prepara i tuoi dati AI rendendoli connessi, continui, curati e contestuali per l’AI. Automatizza la preparazione dei dati non strutturati o semplicemente aggiungi dati pronti per essere interrogati da fonti di terze parti affidabili con Snowflake Cortex AI, utilizzando Document AI, Cortex AISQL e Cortex Knowledge Base.
Ciò significa poter unificare i dati frammentati in un’unica piattaforma centralizzata e governata, indipendentemente dalla posizione geografica o dal catalogo, mantenendo al contempo la flessibilità e la scelta offerte dall’ampio ecosistema di Iceberg.
Semplifica le pipeline con un’infrastruttura completamente gestita
Il consumo di tempo più significativo per un data engineer è la gestione manuale dei grafi delle dipendenze e il debug del codice di trasformazione dei dati procedurali. Ti meriti un modo migliore per creare pipeline di dati a bassa latenza.
Portiamo la potenza dell’AI Data Cloud Snowflake dove si trovano i tuoi dati in formato aperto con funzionalità progettate per eliminare la complessità della gestione delle pipeline:
Utilizza Dynamic Tables per Iceberg: Sfruttando un framework SQL dichiarativo, è sufficiente definire il risultato della trasformazione dei dati desiderato e Snowflake gestisce automaticamente l’orchestrazione, la gestione delle dipendenze, la pianificazione e l’aggiornamento incrementale. Il risultato sono pipeline completamente gestite che liberano ore di sviluppo e forniscono dati efficient
Accelerazione delle pipeline esistenti: Per i team che eseguono ampie basi di codice Spark, Snowpark Connect for Apache Spark™ consente di eseguire i workload Spark direttamente sul motore ad alte prestazioni di Snowflake, spesso con sostanziali miglioramenti del rapporto prezzo/prestazioni. I clienti ottengono prestazioni 5,6 volte più veloci e risparmi sui costi del 41% con Snowpark rispetto al loro ambiente Spark tradizionale.1
A modo tuo: Gestisci la flessibilità degli sviluppatori utilizzando il linguaggio che preferisci con il supporto per SQL, Python o Java. Automatizza la gestione degli oggetti in una pipeline CI/CD con Snowflake CLI, progetti dbt, integrazione GIT e altri strumenti che aiutano il tuo team a creare pipeline di produzione con efficienza ottimale.
Governance per l’AI: creare data product affidabili
I modelli AI/ML si affidano a dati governati e di alta qualità per evitare bias e generare output affidabili. Questo significa integrare funzionalità di governance, qualità dei dati e discovery. Questo è particolarmente difficile nelle architetture lakehouse in cui i dati risiedono in più regioni, cloud e strumenti. Snowflake Horizon Catalog centralizza la governance per l’AI fornendo una gestibilità unificata indipendentemente da dove risiedono i dati.
Horizon Catalog ti aiuta a creare una data foundation verificabile, sicura e pronta per le tue iniziative AI/ML più importanti:
Governance centralizzata e intelligente con Horizon Catalog: Snowflake Horizon Catalog fornisce un unico livello di governance intelligente che applica le policy tra regioni, cloud e tutti gli oggetti di dati, comprese le Iceberg Tables, indipendentemente dal catalogo.
Accesso isolato ai dati: Implementa funzioni di sicurezza pronte all’uso, come controlli di accesso basati sui ruoli che separano la funzione dall’identità, controlli di accesso granulari (FGAC) e controlli di accesso basati sugli attributi (ABAC) per creare criteri di accesso precisi in tempo reale. Isola i dati sensibili e assicurati che solo gli utenti autorizzati o i modelli ML possano accedere a campi specifici, indipendentemente dalla fonte.
Qualità dei dati non negoziabile: Sfrutta controlli di qualità dei dati personalizzabili e avvisi proattivi (attualmente in private preview) per isolare i record dannosi e correggerli. Ottieni la certezza che ogni data product, che si tratti di una dashboard, di un’applicazione o di un modello Gen AI, sia coerente e affidabile.
L’AI Data Cloud Snowflake: Sviluppare per l’innovazione
L’obiettivo del data engineering moderno è fornire il percorso più breve dai dati grezzi all’impatto aziendale. Questa GA segna un enorme balzo in avanti nel rendere questo percorso semplice, aperto e scalabile.
Clienti come Affirm ora hanno la sovranità sui propri dati e la semplicità operativa di cui hanno bisogno per scalare la propria piattaforma dati AI-ready. Affirm ha visto una riduzione di sei volte dei costi mensili per le pipeline di replica e un miglioramento fino al 66% degli SLA critici. Guarda la presentazione.
È tempo che i data engineer abbandonino il ruolo di vigili del fuoco reattivi e assumano quello di artigiani dei dati esperti. Smetti di gestire infrastrutture complesse e dipendenze. Inizia a innovare.
Vuoi finalmente superare la complessità dei dati?
Scopri la soluzione. Guarda le demo in “Data Engineer Connect: Architecting for AI”.
Approfondisci. Accedi alla pagina delle soluzioni per istruzioni dettagliate per ogni caso d’uso.
Inizia a creare.
Affermazioni riferite al futuro
Questo articolo contiene delle affermazioni riferite al futuro, tra cui offerte future di prodotti, che però non rappresentano un impegno a fornire alcuna offerta di prodotti. Le offerte e i risultati effettivi potrebbero essere diversi ed essere soggetti a incertezze e rischi noti e non noti. Fai riferimento al nostro più recente modulo 10Q per ulteriori informazioni.
1 Dati basati su casi d’uso di produzione dei clienti ed esercizi di proof-of-concept che confrontano la velocità e il costo di Snowpark rispetto ai servizi Spark gestiti tra novembre 2022 e maggio 2025. Tutti i risultati sintetizzano i risultati effettivi ottenuti dai clienti con i loro dati reali e non rappresentano data set creati ad hoc come benchmark.
