Creare pipeline di dati migliori: creazione e orchestrazione con SQL e Python in Snowflake

Le trasformazioni dei dati sono il motore delle moderne operazioni sui dati e alimentano le innovazioni in AI, analytics e applicazioni. Come elementi fondamentali di qualsiasi strategia dati efficace, queste trasformazioni sono cruciali per la costruzione di pipeline di dati robuste e scalabili. Oggi siamo lieti di annunciare i più recenti progressi di prodotto in Snowflake per la creazione e l’orchestrazione delle pipeline di dati.

Nell’era frenetica dell’AI di oggi, le pipeline sono la base del successo per i dati a valle. Questo pone i data engineer in una posizione critica. Tuttavia, molti si trovano a destreggiarsi costantemente tra priorità concorrenti:

Configurare e gestire le risorse di calcolo e l’infrastruttura
Eseguire il debug su stack differenti
Monitorare e reagire ai cambiamenti dei dati a monte
Garantire agilità e sicurezza nello sviluppo
Gestire le complessità associate a volumi crescenti di dati, in particolare quelli non strutturati

Storicamente, Snowflake eccelle nell’affrontare questi punti critici. Per anni, Snowflake si è concentrato sulla riduzione di queste complessità, progettando una piattaforma che ottimizza i flussi di lavoro organizzativi e consente ai team dati di concentrarsi su ciò che conta davvero: promuovere l’innovazione. Approfondendo il layer dei dati grezzi per condurre i dati dalla loro origine alla loro destinazione come data set curati, stiamo consentendo ai data engineer di non farsi più bloccare dai costi operativi generali e di diventare invece motori di innovazione.

Per fare questo, siamo lieti di annunciare nuove e migliorate funzionalità che semplificano i flussi di lavoro complessi nell’intero panorama del data engineering, dai flussi di lavoro SQL che supportano la collaboration alle pipeline più complesse in Python.

Figure 1: Snowflake supports building data pipelines with both SQL and Python transformations, as well as flexible orchestration options to streamline the data lifecycle and support a wide range of use cases and data engineering personas.

Pipeline di dati accessibili in SQL

Per molte organizzazioni, le pipeline SQL offrono l’accesso più agevole alla trasformazione dei dati, consentendo a un’ampia gamma di membri del team, come i business analyst, di operare in autonomia e alleggerendo il carico sui data engineer. La natura modulare di queste pipeline, che possono essere create da utenti con diverse competenze SQL, consente l’esecuzione scalabile e affidabile di centinaia di flussi di lavoro. Questo approccio democratizzato contribuisce a garantire una base solida e adattabile.

Presentazione dei progetti dbt su Snowflake (presto in public preview)

I team dati di tutto il mondo apprezzano dbt perché porta le best practice e l’efficienza del software engineering nei flussi di lavoro di trasformazione dei dati SQL e Snowpark all’interno dei loro data warehouse. Integrando dbt direttamente nei servizi di automazione e gestione di Snowflake, i data engineer possono ora concentrarsi sulla creazione, distribuzione e monitoraggio di queste pipeline, anziché sulla gestione dell’infrastruttura o sull’integrazione dell’osservabilità su più sistemi.

Ora gli utenti Snowflake possono creare, caricare, modificare ed eseguire dbt Projects in modo nativo in Snowflake (public preview) all’interno di una nuova interfaccia Workspaces. Questa integrazione nativa semplifica lo sviluppo e accelera la fornitura di dati trasformati.

Aggiornamenti di Dynamic Tables

Dynamic Tables fornisce un framework di elaborazione dichiarativa per pipeline batch e streaming. Questo approccio semplifica la configurazione della pipeline, offrendo orchestrazione automatica ed elaborazione dei dati incrementale continua. Gli utenti ottengono visibilità completa tramite la visualizzazione DAG, ricevono avvisi in tempo reale e beneficiano di funzionalità integrate di qualità dei dati, per una gestione più efficiente e affidabile della pipeline di dati. Gli aggiornamenti includono:

Supporto per Apache Iceberg (ora in general availability): Dynamic Tables ora include funzionalità ampliate con il supporto per formati di tabella aperti, incluso Apache Iceberg. Gli utenti possono creare pipeline di elaborazione batch e streaming su tabelle Apache Iceberg™ (utilizzando Snowflake o un catalogo esterno) con definizioni dichiarative, orchestrazione automatica ed elaborazione incrementale. I dati risultanti possono essere interrogati da qualsiasi motore Iceberg.
Latenza ridotta (private preview): crea pipeline in tempo reale con una latenza end-to-end (dall’ingestion alla trasformazione) di circa 15 secondi.
Miglioramenti delle performance (in general availability): utilizzaioni finestra e tabelle clusterizzate, insieme a nuove ottimizzazioni incrementali per CURRENT_TIMESTAMP e IS_ROLE_IN_SESSION.
Definire la completezza (in general availability): le nuove estensioni SQL, IMMUTABLE WHERE e INSERT ONLY, offrono un maggiore controllo sulla completezza dei dati, consentendo agli utenti di prevenire aggiornamenti o eliminazioni, limitare le modifiche ai dati in base alle condizioni e riempire i dati delle pipeline esistenti per le migrazioni.

Sviluppo Python di livello enterprise

Snowpark consente lo sviluppo Python di livello enterprise per la creazione e la scalabilità di pipeline di dati direttamente in Snowflake. Utilizzando la familiare sintassi Python e i pandas DataFrame, le trasformazioni complesse vengono eseguite senza problemi usando il nostro motore elastico, eliminando lo spostamento dei dati per un’efficiente elaborazione su vasta scala. Snowpark gestisce volumi di dati e richieste di elaborazione crescenti senza costi operativi generali di infrastruttura, offrendo una soluzione Python potente e scalabile.

Aggiornamenti di pandas su Snowflake

pandas su Snowflake integra la flessibilità di pandas con la scalabilità di Snowflake, semplificando lo sviluppo di robuste pipeline di dati Python. Ora gli utenti possono:

Integrare con varie fonti di dati, inclusi l’accesso e il salvataggio in tabelle, viste, Iceberg Tables, Dynamic Tables e formati di file comuni (CSV, Parquet, Excel, XML) di Snowflake.
Sviluppare pipeline pandas che scalano dai prototipi iniziali alle implementazioni di produzione complete senza modifiche al codice
Utilizzare la familiare sintassi pandas per sfruttare le funzionalità analitiche di Snowflake per una trasformazione flessibile dei dati, incluse le funzioni LLM di Snowflake Cortex AI per lo sviluppo di flussi di lavoro basati sull’AI.

Utilizzando pandas su Snowflake, gli sviluppatori possono creare pipeline di dati Python end-to-end leggendo da un’Iceberg Table, trasformare i dati con pandas e salvare la pipeline risultante come Dynamic Iceberg Table.

Per supportare le pipeline pandas su tutte le scale di dati, introduciamo pandas su Snowflake con Hybrid Execution (private preview). Questa nuova e innovativa funzionalità determina in modo intelligente il backend ottimale per l’esecuzione delle query pandas, sia inviandole a Snowflake per data set di grandi dimensioni sia eseguendole in memoria con pandas standard, per supportare test e sviluppo interattivi rapidi.

Figure 2: Hybrid execution for pandas on Snowflake intelligently determines whether to run queries by pushing down to Snowflake or locally in-memory with vanilla pandas.

Aggiornamenti di Snowpark

Snowpark accelera lo sviluppo dei dati consentendo la trasformazione dei dati con Python e altri linguaggi all’interno di Snowflake. Questa estendibilità è strettamente integrata con la sicurezza e la scalabilità della piattaforma Snowflake, consentendo agli sviluppatori di utilizzare strumenti familiari senza spostamento dei dati o gestione separata dell’infrastruttura.

Con l’esecuzione di Snowpark, i clienti hanno riscontrato prestazioni mediamente 5,6 volte più veloci e un risparmio sui costi del 41% rispetto a Spark tradizionale. ^[1]

Snowpark offre ora funzionalità avanzate per portare il codice dove si trovano i dati in modo sicuro ed efficiente in tutti i linguaggi, con un supporto esteso per l’integrazione dei dati, la gestione dei pacchetti e la connettività sicura. Gli aggiornamenti includono:

Integrazione dei dati: con il supporto per Python DB-API (private preview), gli sviluppatori possono ora utilizzare Snowpark per estrarre dati da database relazionali esterni direttamente in Snowflake. Python XML RowTag Reader (private preview) consente di caricare file XML grandi e annidati utilizzando una semplice opzione rowTag. Gli utenti possono caricare solo le parti pertinenti di un documento XML e ricevere un output tabulare strutturato per l’elaborazione a valle.
Gestione dei pacchetti: Con Artifact Repository (in general availability), il nostro supporto flessibile semplifica la gestione dei pacchetti per scaricare e installare facilmente pacchetti da PyPI all’interno delle Snowpark User Defined Function (UDF) e Stored Procedures. Per coloro che utilizzano pacchetti personalizzati, è ora possibile caricare pacchetti con codice nativo e importarli come parte delle UDF o Stored Procedures.
Scrittura di file da Python UD(T)F (ora in general availability): L’introduzione di questa funzionalità espande le capacità complessive di Snowpark per i casi d’uso di data engineering, in particolare dove sono richieste scritture parallele di file personalizzati con le UDF. Tali esempi includono la scrittura di file personalizzati (ad esempio, file di modello; file non strutturati come PDF e immagini; o file semi-strutturati come JSON) dalla funzione agli stage e la trasformazione dei file come parte delle pipeline di dati sullo stage. Ora è possibile trasformare row-oriented avro in file JSON e dividere file di grandi dimensioni in file più piccoli da utilizzare come parte delle applicazioni a valle.

Abbiamo reso più semplice l’accesso a fonti di dati esterne ed endpoint da Snowpark con funzionalità quali il supporto per i caratteri jolly nelle regole di rete, il supporto per la regola "Consenti tutto" per accedere a qualsiasi endpoint nelle regole di rete e l’integrazione con AWS IAM per semplificare la connettività alle risorse AWS. Inoltre, External Access Outbound Private Connectivity è ora disponibile in regioni aggiuntive, tra cui AWS Gov (in general availability), Azure Gov (in general availability) e Google Cloud Platform (private preview).

Automazione delle pipeline

L’orchestrazione automatizzata è integrata nei flussi di lavoro di trasformazione con funzionalità come Dynamic Tables, con un supporto nativo aggiuntivo che utilizza Snowflake Tasks per fornire un framework affidabile e scalabile per un’esecuzione coerente senza i costi operativi generali.

Aggiornamenti di task e serverless task

Snowflake Tasks e serverless tasks eccellono per l’orchestrazione perché consentono di definire flussi di lavoro complessi come una serie di istruzioni SQL dipendenti o codice Python eseguiti direttamente all’interno di Snowflake, eliminando la necessità di strumenti di orchestrazione esterni. Questa stretta integrazione semplifica la gestione e sfrutta le robuste risorse di calcolo di Snowflake per un’automazione affidabile ed economica. Nell’ultimo anno, abbiamo apportato continui miglioramenti a queste funzionalità di orchestrazione native, tra cui:

Miglioramenti di Task Graph: Definisci flussi di lavoro più ricchi per modellare le pipeline di dati con nuove viste e notifiche. Ora è possibile inviare notifiche ai servizi di messaggistica cloud al completamento di un Task Graph (che può attivare un’azione a valle) e visualizzare la rappresentazione grafica delle dipendenze di esecuzione dei task con le informazioni sui metadati dei task.
Task attivati: Esegui immediatamente i task quando nuovi dati arrivano nelle tabelle di origine con l’elaborazione basata su eventi per SQL e Snowpark. Ora è anche possibile creare un Task senza bisogno di specificare una pianificazione o un virtual warehouse. Inoltre, è possibile eseguire automaticamente i task quando i dati provengono da una condivisione di dati o in tabelle di directory (oltre al precedente supporto per tabelle, viste, Dynamic Tables e Iceberg).
Task scheduler a bassa latenza: Orchestra in modo affidabile le pipeline di dati con pianificazioni di 10 secondi per elaborare frequentemente i dati.
Controlli di ottimizzazione e governance: Controlla le ottimizzazioni di costo e performance sui serverless task.
Modificare i task in Snowsight: Modifica i task esistenti dal menu azioni per modificare pianificazione, capacità di calcolo, parametri o commenti.
Automazione Python/JVM: Automatizza UDF (Python/JVM) e Stored Procedures con serverless task.

Un’esperienza di pipeline più completa con Snowflake

Snowflake continua a evolversi come motore centrale per le moderne operazioni sui dati, fornendo una suite completa di strumenti per creare e orchestrare pipeline di dati con facilità ed efficienza. Dall’accessibilità di SQL e la potenza di dbt alla flessibilità di Python tramite Snowpark e pandas, questi ultimi progressi consentono ai data engineer di superare le complessità operative e concentrarsi sulla promozione dell’innovazione. Avvicinando il codice ai dati, ottimizzando i flussi di lavoro e migliorando le performance in diversi casi d’uso e set di competenze, Snowflake si impegna a consentire ai team dati di sbloccare il pieno potenziale dei propri dati nel frenetico panorama odierno guidato dall’AI.

Se desideri saperne di più su queste e altre funzionalità, unisciti a noi al Data Engineering Connect il 29 luglio 2025.

Dichiarazioni previsionali:

Questo articolo contiene dichiarazioni previsionali, anche sulle nostre future offerte di prodotti, che non costituiscono impegni a fornire alcuna offerta di prodotti. I risultati e le offerte effettivi possono differire e sono soggetti a rischi e incertezze noti e sconosciuti. Per maggiori informazioni, consulta il nostro ultimo modulo 10-Q.

¹ Dati basati su casi d’uso di produzione dei clienti ed esercizi di proof-of-concept che confrontano la velocità e il costo di Snowpark rispetto ai servizi Spark gestiti tra novembre 2022 e maggio 2025. Tutti i risultati riassumono i risultati effettivi ottenuti dai clienti con dati reali e non rappresentano data set creati ad hoc per i benchmark.