JUN 10, 2026/Lettura: 11 minProdotto e tecnologia

Il data engineering nell’era dell’AI: nuovi strumenti Snowflake per pipeline intelligenti

Con l’AI, sviluppare è più semplice che mai. Tuttavia, sviluppare più facilmente non significa creare soluzioni destinate a durare. Se i tuoi sistemi sono instabili e fragili, l’AI non farà altro che peggiorare la situazione. Ecco perché hai bisogno di una piattaforma progettata per sfruttare al meglio l’AI.

A Snowflake Summit 2026 abbiamo annunciato nuove funzionalità che mettono i nostri clienti all’avanguardia nel data engineering. Abbiamo integrato l’AI direttamente nei workflow, semplificando lo sviluppo delle pipeline di dati dall’inizio alla fine. Queste nuove funzionalità sono progettate per ogni tipo di data engineer. Funzionano dove risiedono i tuoi dati: in Snowflake, in lakehouse open e interoperabili o in entrambi. Che tu scriva in SQL o Python o sviluppi modelli di ML, tutto ciò di cui hai bisogno per creare pipeline è disponibile in un unico posto. Con Snowflake ottieni capacità di calcolo elastica con prestazioni scalabili, connettività fluida ai dati ovunque si trovino e funzionalità di governance di livello enterprise per dati sicuri, affidabili e con un contesto aziendale coerente.

Time-to-production più rapido con l’AI

Figure 1: Snowflake CoCo outperforms generic coding agents for data engineering tasks.

Figura 1: Snowflake CoCo supera gli agenti di coding generici nei task di data engineering.¹

Grazie ai nuovi workflow agentici, l’AI opera direttamente all’interno del tuo ambiente locale per sviluppare soluzioni end‑to‑end. Per le reali attività di data engineering, Snowflake CoCo definisce lo standard per gli agenti di coding leader del settore. I benchmark di confronto con Claude Code su Opus 4.7, ad esempio, mostrano che CoCo utilizza il 51% di token in meno e richiede l’8% di passaggi in meno per completare il processo.²

Offrendo assistenza sensibile al contesto e competenze specifiche per le funzionalità di data engineering Snowflake, CoCo opera all’interno del tuo perimetro di sicurezza e comprende a fondo il contesto dei dati aziendali. Grazie all’accesso ai modelli più recenti, come Claude Opus 4.8, Claude Sonnet 4.6 e GPT 5.5, i data engineer possono utilizzarlo in Snowsight, tramite la CLI di CoCo o, da oggi, attraverso una nuova app desktop (public preview). Utilizza competenze predefinite o personalizzate per migrare le pipeline Spark, distribuire codice Python, automatizzare i workflow dbt, ottimizzare le prestazioni e molto altro, il tutto da un singolo prompt.

Pipeline autonome e affidabili

Ogni organizzazione desidera dati pronti per l’AI, forniti in modo continuo, a bassa latenza e provenienti da un numero sempre maggiore di sorgenti. Il vecchio approccio, basato su script di orchestrazione scritti a mano, logica incrementale instabile e distribuzioni manuali, è difficile da scalare. I workflow dichiarativi ti consentono di definire il risultato desiderato, mentre Snowflake si occupa di come ottenerlo.

Wolt (parte di DoorDash) ha standardizzato Apache Iceberg per ottenere la flessibilità necessaria a eseguire ogni workload sul motore più adatto. Utilizziamo Snowflake Dynamic Iceberg Tables per arricchire, preparare e aggiornare automaticamente i dati nel nostro data lake: definiamo un’unica query con un livello di aggiornamento desiderato e Snowflake gestisce gli aggiornamenti incrementali e l’orchestrazione. Grazie a Dynamic Tables su Apache Iceberg, abbiamo accelerato il rilascio delle pipeline, ridotto i tempi di manutenzione e diminuito l’overhead associato alle pipeline incrementali.

Raimund Kämmerer

Data Engineer, Wolt

Dynamic Tables più veloci e flessibili

Le Dynamic Tables eliminano ore di lavoro manuale automatizzando l’aggiornamento dei dati in base a una query definita e alla freschezza target. Le Dynamic Tables offrono prestazioni leader del settore e bassa latenza per le pipeline incrementali. Al Summit, Sergey Labetsik, Senior Data Engineer presso Wind Creek Hospitality, ha mostrato come il suo team sia stato in grado di consegnare voucher pasto agli ospiti entro un minuto dal momento in cui ne avevano diritto. Migrando un processo batch dbt a una pipeline di Dynamic Tables, il team ha ridotto la latenza end‑to‑end a meno di un minuto: un enorme miglioramento rispetto alla pianificazione di 30 minuti con cui veniva eseguito il processo in precedenza.

Figure 2: Benchmarks showing up to 2.8x faster refresh performance on Dynamic Tables.

Snowflake ha annunciato una serie di aggiornamenti ai workflow dichiarativi nativi per renderli più efficienti, interoperabili ed espressivi, tra cui:

Prestazioni di aggiornamento delle Dynamic Tables più rapide (in GA): Accelerazione dei workload fino a 2,8x in diverse aree, tra cui funzioni di aggregazione, qualify/rank (SCD-1), operazioni cluster-by e join (dati misurati su warehouse Gen2).
Incrementalizzazione personalizzata (public preview): Ottimizzazione delle prestazioni per trasformazioni complesse scrivendo la propria logica di aggiornamento tramite istruzioni MERGE o INSERT, mantenendo al contempo tutti i vantaggi delle Dynamic Tables, come la pianificazione automatica, il tracciamento delle dipendenze e la replica.
Aggiornamento adattivo (public preview): Determinazione automatica del metodo di aggiornamento più efficiente per ogni ciclo. Nessun tuning richiesto. Snowflake sceglie sistematicamente tra aggiornamenti incrementali e reinizializzazioni per ottimizzare i costi, prevenire errori su query complesse ed eliminare il tuning manuale.
Materializzazione delle Dynamic Table in dbt (versione dell’adapter 1.11.5): Ottimizzazione dell’elaborazione incrementale semplicemente modificando il tipo di materializzazione in dbt. Componibile con altri modelli dbt nella pipeline.
DCM Projects (public preview): Gestione dell’infrastruttura in modo dichiarativo, offrendo un sistema per tracciare le versioni, testare e distribuire varie pipeline di trasformazione su Snowflake.

Porta dbt in Snowflake in modo nativo

Con dbt Projects su Snowflake puoi utilizzare le funzionalità Snowflake che già conosci per creare, modificare, testare, eseguire e gestire i tuoi progetti dbt Core. La distribuzione di un oggetto dbt Project offre osservabilità integrata e integrazione CI/CD, eliminando l’overhead operativo associato alla gestione autonoma dell’infrastruttura.

In qualità di early adopter di dbt Projects, abbiamo collaborato a stretto contatto con Snowflake per contribuire a definire la roadmap in base alle modalità operative e di sviluppo effettivamente adottate dai nostri team. Questo ha consentito a un team snello di accelerare il lavoro, creando al tempo stesso una base per l’analisi dei dati più modulare, governata e scalabile, e favorendo l’adozione dell’AI in tutto il gruppo.

António Costa

Director of Data Engineering, Aviv Group

Grazie agli aggiornamenti annunciati al Summit, sempre più clienti stanno adottando dbt Projects come standard. In questo modo possono superare la gestione di dbt Core, ottenendo al contempo l’accesso a dbt Fusion e a una maggiore osservabilità:

dbt Fusion (in GA) è ora incluso come versione in dbt Projects su Snowflake. Offerto grazie alla nostra partnership con dbt Labs, qualsiasi dbt Project può accedere a Fusion, progettato per ridurre i tempi di compilazione di molte build complesse.
DAG dbt avanzato con derivazione a livello di colonna (in GA) utilizza Snowflake Horizon Catalog per gestire le informazioni a livello di schema direttamente in un grafo aciclico diretto (DAG) tra Workspace, dettagli degli oggetti e Query History. Ora, ogni volta che esegui un oggetto dbt Project, puoi visualizzare una vista unificata della derivazione della pipeline di dati.

Pipeline programmatiche e scalabili

Grazie a Snowpark, Pfizer ha ridotto il costo totale di proprietà (TCO) del 57% ed è riuscita a elaborare i dati quattro volte più velocemente.

Non tutte le trasformazioni si adattano a un modello dichiarativo. Per i data engineer e i data scientist che sviluppano a livello programmatico con Python, Java, Scala e Apache Spark™, le trasformazioni comportano processi come il parsing di file complessi, l’inferenza ML su scala batch e workflow Python multifase. Spesso questi utenti riscontrano che la distribuzione in produzione richiede più tempo della scrittura del codice stesso. Ma Snowpark e Snowpark Connect per Apache Spark™ sono progettati per colmare la distanza tra prototipo e produzione.

Sviluppa e orchestra Notebook e ML Job

Passare da un notebook a una pipeline di produzione è sempre stato più difficile del dovuto. Il nuovo Pipeline Builder (private preview) cambia le cose, consentendo ai team di collegare visivamente Notebook e ML Job in una pipeline end‑to‑end completa, senza dover scrivere codice di orchestrazione da zero. La pianificazione, l’infrastruttura e la creazione degli oggetti vengono gestite automaticamente, così i data scientist e i data engineer possono dedicare meno tempo alla configurazione e concentrarsi sul lavoro vero e proprio. Il risultato è un’iterazione più rapida, meno passaggi di consegne e pipeline ML facili da monitorare e riprodurre in Snowflake.

Sviluppa pipeline su larga scala con Snowpark

Snowpark porta l’esperienza di sviluppo per Python, Java e Scala in modo nativo all’interno di Snowflake. I data engineer e i data scientist possono scrivere ed eseguire iterazioni nei Notebook, sviluppare trasformazioni con la nota API DataFrame, pacchettizzare e distribuire la logica sotto forma di stored procedures e user-defined functions (UDF) e pianificare il tutto con i Task. Dalla prima riga di codice alle pipeline di produzione, Snowpark offre agli sviluppatori un workflow end‑to‑end completo in cui il codice viene eseguito direttamente dove risiedono i dati, con funzionalità di governance integrate e senza alcuna infrastruttura esterna da gestire.

Abbiamo ampliato Snowpark in tre aree chiave: produttività degli sviluppatori, connettività esterna e aggiornamenti mirati per i workload ML e non strutturati. Le funzionalità avanzate includono:

API di integrazione dei dati: Estrazione programmatica dei dati da database esterni: DB-API (in GA) supporta i driver Python per Oracle, SQL Server, Postgres e MySQL; JDBC-API (public preview) aggiunge letture parallele lato server a qualsiasi sorgente JDBC.
Elaborazione di dati non strutturati (in GA): Lettura, parsing e arricchimento di file (immagini, PDF, audio) su scala warehouse utilizzando session.read.file() in combinazione con funzioni di AI come ai.extract(), ai.parse_document() e ai.transcribe().
Artifact Repository (a breve in public preview): Possibilità di recuperare pacchetti Python da repository ospitati dal cliente (Nexus, JFrog) per UDF, stored procedures e Notebook, con supporto per Private Link.
Inferenza batch ML scalabile (private preview): Caricamento dei modelli una sola volta con @udf_init_once e condivisione tra i worker per ridurre l’utilizzo della memoria e ottenere prestazioni più rapide su warehouse standard.
Code Bundles per la distribuzione di Python e Java (a breve in public preview): Integrazione perfetta con DCM Projects per pacchettizzare il codice Snowpark e Snowpark Connect per una distribuzione affidabile e automatizzata, insieme all’infrastruttura da cui dipende. Insieme, offrono ai team di data engineering la stessa sicurezza nella distribuzione di cui i team software beneficiano da anni.

Con Snowflake, i team trasformano il codice Python locale o Apache Spark in workflow pronti per la produzione, con prestazioni in media 5,1 volte superiori e costi ridotti del 42%. [3]

Modernizza le pipeline Apache Spark con Snowpark Connect

L’aggiornamento di una piattaforma dati non dovrebbe comportare la ricostruzione di tutto da zero. Snowpark Connect offre ai team un percorso pratico per portare le pipeline esistenti basate su Spark sulla moderna infrastruttura gestita Snowflake, senza dover riscrivere completamente il codice. Gli ingegneri possono abbandonare i cluster Spark obsoleti e costosi per passare a una piattaforma progettata per la scala di dati odierna, dotata di governance nativa, capacità di calcolo elastica e accesso fluido all’intero ecosistema Snowflake. Si tratta di un processo di modernizzazione che va incontro alle esigenze dei team ed elimina l’overhead operativo del passato.

Dal lancio di Snowpark Connect lo scorso anno, Snowflake ha lavorato intensamente a una serie di aggiornamenti, tra cui:

Client Spark Scala e Java per Scala 2.12/2.13 e Java 11/17 con CLI snowpark-submit per una distribuzione in produzione senza modifiche al codice
Elaborazione dei file del livello Bronze con modalità permissiva, tipi di dati complessi, evoluzione dello schema e letture parallele per file compressi di grandi dimensioni
Osservabilità unificata per aiutare a individuare, diagnosticare e avvisare gli utenti sui processi Spark con dettagli completi (stato, durata, risorse, query, log) da Jupyter, Airflow o sorgenti esterne

Integra il contesto semantico nella tua pipeline

Negli ultimi dieci anni, le definizioni di business sono rimaste esterne alla pipeline. Le metriche venivano definite negli strumenti BI, le feature negli ML store e ogni team aveva la propria versione della verità. Con le viste semantiche, questo scenario sta cambiando. I data engineer possono ora aggiungere significato direttamente nella pipeline. Con Snowflake Semantic View dbt Package, integriamo questa funzionalità nei workflow dbt. I team definiscono il proprio livello semantico direttamente nei file di modello dbt utilizzando la sintassi DDL standard, e CoCo può assisterli nella creazione di questa definizione. L’esecuzione di dbt build materializza o aggiorna la vista semantica in Snowflake, mantenendola sincronizzata con il resto della pipeline. Horizon Context va oltre, rendendo automaticamente disponibili queste definizioni a ogni agente AI, strumento di BI e applicazione che accede ai tuoi dati.

La nuova era del data engineering

Sappiamo da anni che non basta assumere personale per risolvere un problema sistemico. A quanto pare, lo stesso vale per l’uso dell’AI. Quando i data engineer utilizzano l’AI per distribuire soluzioni su piattaforme legacy fragili, il debito tecnologico non viene eliminato, ma accelerato. Il risultato sono pipeline che si interrompono, infrastrutture difficili da gestire e prodotti dati che non riescono a tenere il passo con il business. In questa nuova era dell’AI, la velocità di creazione rischia di superare la qualità delle fondamenta sottostanti.

Snowflake offre sia esperienze di agentic coding progettate specificamente per il data engineering, sia la piattaforma governata richiesta dai workload AI. Che tu stia adottando un’architettura open lakehouse, migrando i workload Spark, creando pipeline di inferenza ML su scala o implementando una piattaforma dati completamente nuova, Snowflake offre a ogni data engineer gli strumenti per muoversi più velocemente, rilasciare soluzioni in sicurezza e dedicare meno tempo a combattere con l’infrastruttura. L’era agentica del data engineering è arrivata.

Per iniziare, scarica l’ebook gratuito “Sviluppare pipeline per l’AI: guida essenziale per un data engineering più intelligente” e scopri di più sulle interessanti novità e sugli annunci dello Snowflake Summit 2026.

In base ai risultati di ADE Bench rispetto a Claude Code. ↩
Nota: Punteggio di efficienza basato su test interni condotti con ADE-bench, un framework creato da dbt per valutare gli agenti AI su task reali di analisi dei dati e data engineering. ↩
Dati basati su casi d’uso di produzione dei clienti e progetti proof-of-concept che confrontano velocità e costi di Snowpark tra novembre 2022 e maggio 2026. I miglioramenti effettivi in termini di velocità e costi dipendono dagli ambienti specifici dei clienti e dai pattern di workload. ↩

Articolo di

Abhishek Kashyap

Director of Product Management

Jena Donlin

Product Marketing Lead

Il data engineering nell’era dell’AI: nuovi strumenti Snowflake per pipeline intelligenti

Time-to-production più rapido con l’AI