I tuoi dati sono pronti per l’AI? E tu, lo sei?

I dati AI-ready sono molto più del vecchio adagio “garbage in, garbage out”. Certo, a nessuno piacciono i dati spazzatura ma, come si suol dire, “ciò che per qualcuno è un rifiuto per altri è un tesoro”. Il segreto è sapere di cosa hai bisogno per un’iniziativa specifica, ma anche essere consapevole di ciò che hai a disposizione. I dati devono essere valutati, gestiti e governati, includendo etichettatura e pubblicazione dettagliate. Questi ultimi due elementi sono la chiave per il riutilizzo, il Sacro Graal di un’AI efficace ed efficiente.
Usando un’analogia culinaria, preparare i dati per l’AI è un’operazione ben più complessa che preparare una semplice insalata mista. In cucina, gli ingredienti crudi devono essere preparati per ricette specifiche. Le patate potrebbero dover essere affettate, tagliate a cubetti o grattugiate a seconda della ricetta. Ma prima ancora di arrivare a quel punto, devi procurare le patate. E probabilmente dovrai anche pulirle. Inoltre, dovrai trovare gli altri ingredienti da abbinare. Anche gli ingredienti devono essere etichettati: non vorrai certo confondere lo zucchero con il sale o la paprika dolce con il peperoncino piccante.
I dati AI-ready sono come quegli ingredienti già pronti per essere integrati in un modello di AI. Al recente Snowflake Summit, abbiamo annunciato le funzionalità dell’AI Data Cloud che rispondono alle caratteristiche chiave dei dati AI-ready. Eccone alcune:
- Qualità: Va da sé che i migliori chef utilizzano ingredienti di qualità. Snowflake consente ai clienti di definire standard di qualità (ad esempio, freschezza, duplicazione e misure personalizzate) e di monitorarli con le Data Metric Functions. Il monitoraggio in tempo reale consente un feedback immediato sulle prestazioni delle query e sui dati modificati, facilitando un controllo continuo della qualità dei dati. Ora Snowflake Cortex AI può essere utilizzato per automatizzare la pulizia dei dati, rilevare anomalie, standardizzare i data set e persino suggerire valori mancanti, riducendo l’impegno manuale e migliorando la coerenza.
- Diversità: La dispensa dovrebbe essere sempre ben fornita. Allo stesso modo, la diversità dei dati contribuisce a garantire risultati AI di qualità. Snowflake consente ai clienti di archiviare, analizzare e applicare l’AI a diversi tipi di dati. Il supporto per i formati open source permette ai clienti di accedere a una gamma ancora più ampia, inclusi i dati che si trovano al di fuori degli ambienti Snowflake. Inoltre, estendere i dati di training includendo quelli dei partner o acquisiti da provider esterni garantisce un’ulteriore diversità. E la generazione di dati sintetici può rendere i dati sensibili più accessibili o bilanciare la rappresentazione laddove i parametri dei dati mancanti sono noti.
- Aggiornamento: Ovviamente, gli ingredienti devono essere freschi. Niente di peggio che scoprire che un componente chiave del tuo piatto ha perso il suo sapore. L’accesso ai dati nel loro ambiente di origine è sempre stato una solida proposta di valore della piattaforma Snowflake, che fornisce ai modelli di AI l’accesso alle informazioni più pertinenti e tempestive. Inoltre, il servizio di ingestion continua dei dati Snowpipe automatizza i processi di caricamento, garantendo che i dati siano disponibili per l’analisi non appena arrivano e contribuendo alla loro tempestività.
- Governance: Anche gli chef potrebbero voler tenere certi ingredienti sotto chiave, come durante la stagione del tartufo. Tutte le nuove funzionalità di governance di Snowflake disponibili tramite Snowflake Horizon consentono questo tipo di accesso, e i diritti di utilizzo possono essere definiti in modo granulare e applicati rigorosamente con feature come il controllo degli accessi basato sui ruoli, il mascheramento dei dati, l’object tagging e l’auditing. La strategia di Snowflake consiste nel portare i modelli di AI dove si trovano i dati, all’interno del suo ambiente sicuro, anziché spostare all’esterno dati aziendali sensibili. Questo riduce in modo significativo i rischi per la sicurezza e la governance associati agli strumenti di AI esterni. È come assicurarsi che la preparazione avvenga nella propria cucina, invece di portare gli ingredienti a casa del vicino.
- Discovery: Ovviamente gli chef devono essere in grado di trovare i loro ingredienti, idealmente in contenitori etichettati. E vogliono conoscerne la composizione e l’origine, con il maggior numero di dettagli possibile. Le informazioni nutrizionali sono i metadati. Un catalogo di dati, come Snowflake Horizon Catalog, fornisce un inventario dei data asset con metadati, contesto e dettagli di accessibilità, rendendo i dati più facili da trovare e comprendere. L’interfaccia Snowsight di Snowflake abilita il completamento automatico, la profilazione automatica dei dati, le visualizzazioni e le dashboard per una rapida esplorazione dei dati. E il Marketplace Snowflake facilita la scoperta e l’accesso a diversi data set e applicazioni predefinite, utilizzando sia dati interni sia dati provenienti da fonti esterne. Una cucina così ben attrezzata farebbe la gioia di qualsiasi chef.
In conclusione: I dati AI-ready non sono un optional. Se vuoi un’AI efficace ed efficiente, deve essere addestrata nel modo giusto. Dati pertinenti e puliti si traducono in prestazioni migliori per i tuoi modelli di AI. Quando i tuoi dati sono facili da trovare e da comprendere, impieghi meno tempo a prepararli. Pensa a una cucina ben organizzata, con barattoli per farina, zucchero e sale, un portaspezie con etichette e date, e un frigorifero rifornito di ingredienti freschi. Con dati di questo tipo, puoi creare, lanciare e scalare iniziative AI molto più velocemente e promuovere il riutilizzo dei dati in più progetti.
I dati AI-ready sono raramente "pronti all’uso"
I dati AI-ready non nascono dal nulla. Raramente ne esiste una versione preconfezionata e pronta all’uso. Potresti avere fortuna e trovarne alcuni. Ma se sviluppi buone pratiche per la gestione dei dati, puoi creare il tuo mercato interno in cui i team possono trovare gli ingredienti di cui hanno bisogno.
La responsabilità dei dati AI-ready non è di un singolo individuo o dipartimento; è uno sforzo condiviso e interfunzionale che coinvolge più stakeholder all’interno di un’organizzazione, dalla leadership ai team tecnici, ai proprietari dei dati e a coloro che li utilizzeranno. Per continuare l’analogia, ci vuole un’intera brigata di cucina, a partire dallo chef.
Invece di concentrarti su nuovi ruoli, concentrati sulle responsabilità, cioè su cosa devi realizzare rispetto a chi devi assumere. Ecco una panoramica di ciò di cui potresti aver bisogno:
- Il supporto dei dirigenti è fondamentale per il successo delle iniziative AI, man mano che si espandono nell’organizzazione. I dirigenti definiscono gli obiettivi di business generali a cui deve allinearsi una strategia per i dati e l’intelligenza artificiale. Stanziano il budget, il personale e l’infrastruttura tecnologica necessari per supportare il raggiungimento di questi obiettivi e promuovono una cultura che favorisce l’utilizzo efficace e responsabile di dati e AI. I dirigenti sono i responsabili ultimi di ciò che accade nelle loro organizzazioni, che si tratti dei profitti di fine trimestre o della violazione dei dati avvenuta nel fine settimana. Un comitato direttivo esecutivo per l’AI dovrebbe garantire che la leadership sia informata e coinvolta.
- La leadership dei dati (il CDO o il data leader di livello più alto), pur facendo parte del comitato direttivo esecutivo, è responsabile della definizione e dell’implementazione della strategia, delle policy e delle procedure sui dati per garantirne la qualità, la sicurezza e l’accessibilità. Il CDO o una figura equivalente collabora con le altre business unit per stabilire ruoli e responsabilità chiari per la proprietà e la gestione dei dati e per sviluppare le linee guida per la gestione del loro ciclo di vita, dalla raccolta all’archiviazione, elaborazione e utilizzo. Il ruolo del CDO varia da un’azienda all’altra, ma dovrebbe agire come un executive chef (tornando all’analogia della cucina), anche se i compiti sono distribuiti tra le business unit. Il CDO dirigerà un consiglio dei dati per coordinare policy, requisiti e utilizzo.
- La proprietà e la gestione dei dati risiedono all’interno delle business unit che hanno maggiore familiarità con un particolare data set. La proprietà implica la responsabilità. La gestione (stewardship) è la responsabilità per l’accuratezza, la completezza e la coerenza dei dati. Chi svolge questi compiti garantisce che i dati siano curati adeguatamente (raccolti, documentati e mantenuti secondo le policy di governance stabilite) e che i dati del proprio dominio siano conformi alle normative pertinenti e alle policy interne. Questi sono i capi partita. Le organizzazioni più piccole o centralizzate mantengono la proprietà e la gestione dei dati all’interno di un unico team dati, ma su larga scala i team centrali diventano un rallentamento. Tuttavia, i compiti non devono essere distribuiti in modo uguale tra tutte le business unit. La proprietà e la gestione ibride rimangono un approccio comune.
- Le attività di ingegneria dei dati e della piattaforma (creazione e manutenzione dell’infrastruttura, delle pipeline e delle piattaforme che raccolgono, archiviano, elaborano e rendono i dati accessibili ai modelli di AI) spesso rimangono di competenza dell’IT. Tuttavia, chi ricopre questi ruoli collabora per integrare dati da fonti eterogenee, garantire coerenza e interoperabilità e implementare controlli per la sicurezza dei dati, la gestione degli accessi e la privacy. Anche il lavoro di data engineering può essere distribuito.
- Le verifiche di conformità, legali ed etiche sono generalmente eseguite da team di esperti specifici. Svolgono un ruolo consultivo per garantire che tutte le pratiche sui dati, specialmente quelle che riguardano informazioni sensibili o personali, siano conformi alle normative sulla privacy (come il GDPR o il CCPA) e a quelle emergenti sull’AI (come l’AI Act dell’UE). Alcune aziende, come Salesforce, hanno un ufficio etico che supervisiona l’utilizzo dell’AI da parte di team di prodotto e clienti. Sviluppano framework per identificare e mitigare i bias nei dati e nei modelli di AI e ne monitorano l’uso per garantire equità, trasparenza e responsabilità.
- Quelli del data scientist e dell’AI/ML engineer sono ruoli, non compiti, e meritano di essere definiti come tali. In quanto principali fruitori dei dati AI-ready, hanno la responsabilità di articolare le esigenze specifiche di dati per i loro modelli di AI (ad esempio, requisiti di volume, varietà, pertinenza ed etichettatura). Analizzano i dati per rilevare problemi di qualità, bias e idoneità per il training di modelli di AI e forniscono feedback ai proprietari dei dati e ai team di governance sulla qualità e accessibilità dei dati e sulle lacune da colmare per migliorare le prestazioni del modello.
Invece di concentrarti su nuovi ruoli, immergiti nelle responsabilità: pensa a cosa devi realizzare non a chi devi assumere.
Sebbene questi ruoli e responsabilità siano importanti, un programma di AI efficace include un gruppo di lavoro collaborativo e interfunzionale che coordina i requisiti e condivide piani e pratiche. Ogni partecipante comprende il proprio ruolo nel ciclo di vita dei dati, ma è anche responsabile di facilitare il riutilizzo dei dati come mezzo per ottenere scalabilità, leva e maggiore efficienza. La distribuzione di ruoli e responsabilità non significa anarchia; richiede coordinamento per garantire un’AI efficace. Allo stesso modo, in una cucina professionale, l’executive chef supervisiona tutta la brigata di cucina, ma ogni ruolo richiede comunicazione chiara, tempismo e lavoro di squadra per garantire che i diversi cuochi possano servire i piatti con precisione.
Ricorda, però, che non esiste una soluzione valida per tutti. Alcune business unit potrebbero avere più autonomia di altre. Non tutte le responsabilità richiederanno la definizione di nuovi ruoli o l’assegnazione di nuovo personale. In una recente tavola rotonda di Snowflake, un cliente sosteneva che ogni data product richiedeva tre nuovi ruoli. Non tutti erano d’accordo. È più importante fare un inventario delle responsabilità. Alcune potrebbero essere allocate tra i ruoli esistenti. La sfida, quindi, è fornire incentivi per incoraggiare chi ricopre ruoli esistenti ad assumere nuovi compiti, o a sostituire le attività attuali con modalità di lavoro nuove e più efficienti. Inizia in piccolo, partendo dai risultati più facili da ottenere, per dimostrare nuovi modi di lavorare e promuovere il cambiamento.