Oggi il data engineering sta attraversando due grandi trasformazioni: una riguarda la funzione, l’altra la forma. La prima è evidente: l’AI sta ridefinendo in modo sostanziale la funzione dei data engineer a quasi ogni livello. La sua fame insaziabile di dati ha imposto ai team di data engineering esigenze enormi, indispensabili per il successo ma incredibilmente difficili da sostenere. La seconda è una trasformazione nella forma, nel modo in cui i data engineer devono rispondere a queste esigenze nuove e crescenti. Abbiamo visto i data engineer passare da attività per lo più ripetitive e manuali a modalità operative più strategiche, adottando le best practice dello sviluppo software per aumentare il valore del loro lavoro. Non sono più semplici “idraulici dei dati” o costruttori di pipeline; sono gli architetti operativi di qualsiasi organizzazione data‑driven. E, a questo punto, non si torna indietro.
Quando parliamo di data engineering moderno, l’attenzione non è più concentrata sul collegare manualmente ogni singolo punto. Un approccio così, semplicemente, non scala abbastanza per rispondere alle esigenze dell’AI. Con volumi di dati in crescita esponenziale che diventano rapidamente disponibili e utilizzabili, i data engineer devono lavorare in modo più efficiente per tenere il passo. È qui che un approccio più moderno e dichiarativo allo sviluppo di pipeline cambia le regole del gioco per i data engineer. Spostando l’attenzione dai dettagli di ogni passaggio allo stato finale desiderato, i data engineer possono moltiplicare la produttività e ottenere risultati che prima sembravano fuori portata.
Prendiamo come esempio gli agenti di coding. Nel giro di pochi mesi, questi strumenti, tra cui Cursor, Claude Code e Snowflake Cortex Code, hanno rivoluzionato il modo in cui pensiamo allo sviluppo software e, per estensione, al data engineering. In che modo? Da anni, i team di data engineering adottano senza troppo clamore le best practice dei cicli di vita software-defined. Trattano l’infrastruttura come codice e creano ambienti strutturati, sottoposti a controllo versione, in cui le pipeline di dati assomigliano molto a codice software stateless. Poiché questi agenti AI di coding sono addestrati in modo intensivo su problemi di software engineering, riescono ad adattarsi con relativa facilità anche a questa forma moderna di data engineering.
Questo cambio di approccio, verso una mentalità più moderna e dichiarativa, crea le condizioni giuste perché gli strumenti di AI funzionino. Ma soprattutto, offre la rete di sicurezza necessaria per consentire all’AI di operare su larga scala. In passato, correggere una pipeline significava eseguire comandi SQL raw direttamente in un ambiente di produzione; ma, se qualcosa si rompeva, capire che cosa fosse andato storto era estremamente complesso. Oggi, un approccio moderno prevede che le modifiche siano inserite nel controllo versione, testate e distribuite solo come stato noto e valido. Poter testare facilmente le modifiche ed eseguire il rollback è un prerequisito imprescindibile prima di affidare all’AI la scrittura o la gestione dei workflow di dati.
Affidarsi all’AI, però, non significa avere fede cieca. La chiave, invece, è creare fiducia nel processo di data engineering sottostante. Vediamo già organizzazioni eseguire migliaia di pipeline di dati contemporaneamente, fino a un punto in cui la supervisione umana di ogni componente in movimento diventa pressoché impossibile. Presto ci muoveremo verso l’Agentic AI, in cui gli agenti software si faranno carico di porzioni più ampie della costruzione effettiva delle pipeline. Il ruolo dei data engineer salirà ancora di livello, con un passaggio dalla scrittura di singoli script alla modellazione dei dati a livello avanzato e alla definizione dei requisiti di sistema. Opereranno più vicino al business, garantendo disponibilità e qualità dei dati per l’AI, l’analisi dei dati e le app.
In definitiva, il futuro del data engineering non consiste nello scrivere script migliori per spostare i dati. Consiste nello sviluppare sistemi resilienti che li connettono per te. Per questo Gilberto Hernandez, Lead Developer Advocate Snowflake, ha scritto l’ebook “Build Pipelines for AI: An Essential Guide to Smarter Data Engineering” in cui presenta il framework ITD (ingestion-transformation-delivery) per le pipeline di dati e passa in rassegna gli approcci tradizionali associati a ogni fase, con i rispettivi punti di forza e limiti. Mette in evidenza gli strumenti e i metodi moderni che possono aiutare i team di data engineering ad adattarsi a uno scenario in continua evoluzione e a prepararsi al futuro.

