Snowpark offre ora funzionalità avanzate per portare il codice dove si trovano i dati in modo sicuro ed efficiente in tutti i linguaggi, con un supporto esteso per l’integrazione dei dati, la gestione dei pacchetti e la connettività sicura. Gli aggiornamenti includono:

Integrazione dei dati: con il supporto per Python DB-API (private preview), gli sviluppatori possono ora utilizzare Snowpark per estrarre dati da database relazionali esterni direttamente in Snowflake. Python XML RowTag Reader (private preview) consente di caricare file XML grandi e annidati utilizzando una semplice opzione rowTag. Gli utenti possono caricare solo le parti pertinenti di un documento XML e ricevere un output tabulare strutturato per l’elaborazione a valle.

Gestione dei pacchetti: Con Artifact Repository (in general availability), il nostro supporto flessibile semplifica la gestione dei pacchetti per scaricare e installare facilmente pacchetti da PyPI all’interno delle Snowpark User Defined Function (UDF) e Stored Procedures. Per coloro che utilizzano pacchetti personalizzati, è ora possibile caricare pacchetti con codice nativo e importarli come parte delle UDF o Stored Procedures.

Scrittura di file da Python UD(T)F (ora in general availability): L’introduzione di questa funzionalità espande le capacità complessive di Snowpark per i casi d’uso di data engineering, in particolare dove sono richieste scritture parallele di file personalizzati con le UDF. Tali esempi includono la scrittura di file personalizzati (ad esempio, file di modello; file non strutturati come PDF e immagini; o file semi-strutturati come JSON) dalla funzione agli stage e la trasformazione dei file come parte delle pipeline di dati sullo stage. Ora è possibile trasformare row-oriented avro in file JSON e dividere file di grandi dimensioni in file più piccoli da utilizzare come parte delle applicazioni a valle.

Abbiamo reso più semplice l’accesso a fonti di dati esterne ed endpoint da Snowpark con funzionalità quali il supporto per i caratteri jolly nelle regole di rete, il supporto per la regola "Consenti tutto" per accedere a qualsiasi endpoint nelle regole di rete e l’integrazione con AWS IAM per semplificare la connettività alle risorse AWS. Inoltre, External Access Outbound Private Connectivity è ora disponibile in regioni aggiuntive, tra cui AWS Gov (in general availability), Azure Gov (in general availability) e Google Cloud Platform (private preview).

Automazione delle pipeline

L’orchestrazione automatizzata è integrata nei flussi di lavoro di trasformazione con funzionalità come Dynamic Tables, con un supporto nativo aggiuntivo che utilizza Snowflake Tasks per fornire un framework affidabile e scalabile per un’esecuzione coerente senza i costi operativi generali.

Aggiornamenti di task e serverless task

Snowflake Tasks e serverless tasks eccellono per l’orchestrazione perché consentono di definire flussi di lavoro complessi come una serie di istruzioni SQL dipendenti o codice Python eseguiti direttamente all’interno di Snowflake, eliminando la necessità di strumenti di orchestrazione esterni. Questa stretta integrazione semplifica la gestione e sfrutta le robuste risorse di calcolo di Snowflake per un’automazione affidabile ed economica. Nell’ultimo anno, abbiamo apportato continui miglioramenti a queste funzionalità di orchestrazione native, tra cui:

Miglioramenti di Task Graph: Definisci flussi di lavoro più ricchi per modellare le pipeline di dati con nuove viste e notifiche. Ora è possibile inviare notifiche ai servizi di messaggistica cloud al completamento di un Task Graph (che può attivare un’azione a valle) e visualizzare la rappresentazione grafica delle dipendenze di esecuzione dei task con le informazioni sui metadati dei task.

Task attivati: Esegui immediatamente i task quando nuovi dati arrivano nelle tabelle di origine con l’elaborazione basata su eventi per SQL e Snowpark. Ora è anche possibile creare un Task senza bisogno di specificare una pianificazione o un virtual warehouse. Inoltre, è possibile eseguire automaticamente i task quando i dati provengono da una condivisione di dati o in tabelle di directory (oltre al precedente supporto per tabelle, viste, Dynamic Tables e Iceberg).

Task scheduler a bassa latenza: Orchestra in modo affidabile le pipeline di dati con pianificazioni di 10 secondi per elaborare frequentemente i dati.

Controlli di ottimizzazione e governance: Controlla le ottimizzazioni di costo e performance sui serverless task.

Modificare i task in Snowsight: Modifica i task esistenti dal menu azioni per modificare pianificazione, capacità di calcolo, parametri o commenti.

Automazione Python/JVM: Automatizza UDF (Python/JVM) e Stored Procedures con serverless task.

Un’esperienza di pipeline più completa con Snowflake

Snowflake continua a evolversi come motore centrale per le moderne operazioni sui dati, fornendo una suite completa di strumenti per creare e orchestrare pipeline di dati con facilità ed efficienza. Dall’accessibilità di SQL e la potenza di dbt alla flessibilità di Python tramite Snowpark e pandas, questi ultimi progressi consentono ai data engineer di superare le complessità operative e concentrarsi sulla promozione dell’innovazione. Avvicinando il codice ai dati, ottimizzando i flussi di lavoro e migliorando le performance in diversi casi d’uso e set di competenze, Snowflake si impegna a consentire ai team dati di sbloccare il pieno potenziale dei propri dati nel frenetico panorama odierno guidato dall’AI.

