Data for Breakfast arriva in Italia

Il 19 marzo scopri come fare la differenza con i dati e gli agenti AI.

Che cos’è l’AutoML? Guida al machine learning automatizzato

Scopri che cos’è l’AutoML, come funziona e perché è importante. Scopri i casi d’uso, i componenti chiave e come una piattaforma dati può migliorare i flussi di lavoro ML automatizzati.

  • Presentazione
  • Che cos’è l’AutoML?
  • Perché l’AutoML è una soluzione rivoluzionaria
  • Componenti chiave dell’AutoML
  • Sei casi d’uso comuni per l’AutoML
  • Le maggiori limitazioni dell’AutoML
  • Conclusione
  • Domande frequenti sull’AutoML
  • Clienti che utilizzano il machine learning Snowflake
  • Risorse sul machine learning

Presentazione

Non è un’esagerazione dire che il machine learning ha cambiato il mondo. Insegnare alle macchine a pensare dando loro esempi da cui apprendere (dati) anziché regole pre-programmate (codice) ha aperto la strada a un’ampia gamma di applicazioni pratiche. Tutto, dai sistemi di diagnostica radiologica ai filtri antispam delle email fino ai veicoli semi-autonomi, è stato insegnato utilizzando il machine learning (ML).

Il machine learning è anche alla base dei large language model e delle applicazioni Gen AI. Tuttavia, la creazione e l’addestramento di modelli ML richiedono un notevole dispendio di tempo e risorse, oltre a ingenti investimenti in infrastrutture e grande esperienza nel campo dell’AI. È per questo che una nuova categoria di strumenti che automatizzano molti di questi processi, nota come AutoML (Automated Machine Learning), ha catturato l’attenzione di data scientist, ingegneri, analisti e utenti aziendali. 

In questa guida spiegheremo che cos’è l’AutoML e come aiuta a colmare il gap di conoscenze tra i team di data science e gli utenti comuni, rendendo l’AI più scalabile e accessibile a tutti all’interno di un’azienda.

Che cos’è l’AutoML?

L’AutoML utilizza il software per gestire automaticamente i passaggi chiave di creazione di un modello di machine learning, come la selezione degli algoritmi giusti, il tuning dei parametri e la trasformazione dei dati grezzi in un formato comprensibile per il modello, un processo noto come feature engineering. Questo può ridurre il tempo necessario per creare un modello semplice. Se prima servivano diversi mesi, ora sono sufficienti pochi giorni o addirittura alcune ore. L’AutoML democratizza l’intelligenza artificiale consentendo agli utenti di settori come healthcare, finance e marketing di creare modelli propri senza bisogno di competenze tecniche approfondite.

Perché l’AutoML è una soluzione rivoluzionaria

Di seguito sono riportati i cinque modi in cui l’AutoML sta cambiando le regole della creazione di modelli.


  • Democratizza lo sviluppo. L’AutoML abbatte le barriere tecniche, consentendo di creare modelli sofisticati anche a chi non possiede competenze di machine learning.
  • Aumenta la produttività. Automatizzando processi lunghi come il feature engineering, la selezione degli algoritmi e il tuning dei parametri, l’AutoML riduce il tempo necessario per la creazione di modelli.
  • Migliora la precisione. Le piattaforme AutoML testano sistematicamente centinaia di combinazioni di algoritmi e parametri, spesso scoprendo modelli più efficaci che gli operatori potrebbero non rilevare.
  • Migliora la riproducibilità. Le piattaforme AutoML documentano automaticamente tutte le decisioni e i parametri di modellazione, creando un chiaro audit trail che consente di riprodurre facilmente i risultati e comprendere esattamente come sono stati creati i modelli.
  • Migliora la coerenza. L’AutoML garantisce che i metodi di convalida, convalida incrociata e valutazione siano applicati in modo coerente, riducendo gli errori umani che possono portare a previsioni inaccurate.

Componenti chiave dell’AutoML

Ecco gli elementi chiave di una pipeline AutoML:
 

Pre-elaborazione dei dati

In questa fase, la piattaforma pulisce e prepara i dati grezzi gestendo i valori mancanti, rimuovendo le eccezioni e convertendo i vari tipi di dati in formati adatti agli algoritmi di machine learning, garantendo la qualità e la coerenza dei dati prima dell’inizio del training dei modelli.
 

Feature engineering

Successivamente, la piattaforma trasforma i dati grezzi generando nuove variabili, codificando dati categorici, scalando le feature numeriche e selezionando le feature più rilevanti per migliorare le previsioni del modello.
 

Selezione del modello

L’AutoML testa sistematicamente molteplici algoritmi di machine learning (come alberi decisionali, reti neurali o metodi ensemble) per identificare l’approccio più adatto allo specifico data set e problema. 
 

Training

Il passo più importante è fornire al modello grandi quantità di dati di esempio (come migliaia di email con l’etichetta “spam” o “non spam”) in modo che possa imparare a riconoscere schemi e relazioni all’interno di tali dati. Può quindi utilizzare questi schemi appresi per effettuare previsioni o prendere decisioni su dati che non ha mai visto prima.
 

Modellazione ensemble

Questa fase prevede l’addestramento di diversi modelli di machine learning sullo stesso data set e quindi la combinazione delle loro previsioni per raggiungere una decisione finale. La modellazione ensemble produce tipicamente risultati più accurati e affidabili di qualsiasi modello individuale riducendo l’impatto dei punti deboli e dei bias di un particolare modello.
 

Tuning degli iperparametri

Ottimizzando automaticamente le impostazioni che controllano il modo in cui ciascun algoritmo apprende, come i tassi di apprendimento, la profondità dell’albero o i parametri di regolarizzazione, l’AutoML consente agli utenti di identificare la migliore combinazione possibile di parametri.
 

Valutazione e convalida

Le organizzazioni hanno bisogno di un modello per lavorare bene con dati nuovi e invisibili. Procedure di test come la convalida incrociata raccolgono metriche quali accuratezza, precisione e recupero, verificando al contempo l’eventuale presenza di overfitting (per cui un modello ha scarse prestazioni con dati esterni al suo training set) o bias.
 

Distribuzione e monitoraggio 

L’AutoML identificherà automaticamente il modello più efficiente per l’ambiente di produzione e imposterà sistemi per monitorare le prestazioni nel tempo. Questo aiuta a garantire che i modelli continuino a funzionare in modo efficace con il mutare delle condizioni del mondo reale, evitando la deriva del modello e attivando il re-training secondo necessità.
 

Sviluppo dell’explainability

Quando possibile, gli sviluppatori dovranno essere in grado di spiegare perché un modello ha fatto una particolare previsione, evitando modelli “black box” in cui il processo decisionale non è trasparente. Le piattaforme AutoML sono spesso dotate di strumenti che documentano l’intero processo di modellazione, tra cui il modo in cui i dati sono stati pre-elaborati e perché sono stati scelti determinati algoritmi.

Sei casi d’uso comuni per l’AutoML

Poiché praticamente in tutti i settori si utilizzano modelli di machine learning, in molti casi l’AutoML può accelerare le iniziative ML un’organizzazione. Di seguito sono riportati sei casi d’uso comuni in cui l’AutoML può migliorare i processi:
 

1. Previsione delle vendite  

L’AutoML aiuta le aziende a creare modelli per analizzare i dati di vendita storici, le variazioni stagionali e le tendenze del mercato. Le aziende possono adeguare rapidamente l’inventario, il personale e i budget sulla base di queste previsioni automatizzate, senza bisogno di ricorrere a un team di data science. 
 

2. Rilevamento frodi 

Banche e società di elaborazione dei pagamenti utilizzano l’ML per segnalare potenziali transazioni fraudolente in tempo reale. L’AutoML consente a chi si occupa di frodi e gestione del rischio di creare modelli più rapidamente per tenere il passo con l’evoluzione delle tattiche dei truffatori. 
 

3. Previsioni sull’abbandono dei clienti 

I fornitori di servizi in abbonamento e di servizi di telecomunicazioni utilizzano l’ML per segnalare i clienti che potrebbero disdire il servizio, così possono contattarli proponendo iniziative di fidelizzazione in modo proattivo. L’automazione consente alle aziende di testare e distribuire rapidamente nuovi modelli per la fidelizzazione al variare del comportamento dei clienti.
 

4. Diagnostica medica

Il machine learning aiuta gli operatori sanitari ad analizzare immagini mediche, risultati di laboratorio e sintomi dei pazienti per facilitare le diagnosi e il trattamento. Man mano che diventano disponibili nuove ricerche mediche e nuovi dati sui pazienti, l’AutoML può aggiornare i modelli esistenti su base continua per garantire ai pazienti le migliori cure possibili.
 

5. Ottimizzazione dell’inventario

Il mondo retail utilizza i modelli per prevedere la domanda di prodotti specifici in diverse località, così da poter stoccare gli articoli giusti al momento giusto. L’AutoML può aiutare i retailer a creare modelli per diverse categorie di prodotti o punti vendita e a riqualificarli automaticamente al mutare delle condizioni del mercato.
 

6. Pricing dinamico

L’AutoML consente a piattaforme di ecommerce e servizi di ride sharing di implementare modelli di prezzo dinamici integrando automaticamente flussi di dati in tempo reale e di sperimentare rapidamente diverse strategie di prezzo in mercati, prodotti o aree di servizio differenti. Le organizzazioni possono così massimizzare le entrate senza richiedere frequenti aggiustamenti manuali dei prezzi.

Le maggiori limitazioni dell’AutoML

Le piattaforme AutoML offrono vantaggi a tutte le aziende. Possono accelerare lo sviluppo dei modelli, ridurre gli errori umani, permettere ai data scientist di svolgere attività più strategiche e democratizzare l’accesso all’AI in tutta l’organizzazione. Ma soffrono anche di alcune limitazioni intrinseche. Ad esempio:
 

Offrono soluzioni generiche

L’AutoML tende ad applicare approcci standard che potrebbero non cogliere gli aspetti caratterizzanti di problemi specifici, potenzialmente omettendo soluzioni personalizzate che gli esperti di dominio svilupperebbero per singoli settori o singoli casi d’uso.
 

Hanno una conoscenza limitata dei domini aziendali

I sistemi AutoML non rilevano il contesto di business e le competenze specializzate per settori o domini specifici, e potenzialmente non colgono sfumature importanti che un esperto umano noterebbe, come andamenti e variazioni stagionali o vincoli normativi.
 

Confermano il principio “garbage in - garbage out”. 

Le piattaforme AutoML non sono in grado di correggere dati di scarsa qualità. Se i dati di input sono distorti, incompleti o irrilevanti, i sistemi automatizzati genereranno risultati inaffidabili.
 

Non sono molto flessibili 

Gli utenti avanzati possono incontrare ostacoli quando cercano di implementare tecniche specializzate, algoritmi personalizzati o complesse fasi di pre-elaborazione che non rientrano nelle funzionalità automatizzate della piattaforma.
 

Gli strumenti di feature engineering possono essere limitati 

Benché le piattaforme AutoML gestiscano il feature engineering di base, potrebbero non riuscire a creare feature specifiche per il settore in grado di migliorare significativamente le prestazioni del modello.
 

Potrebbero avere un problema di “black box”

Anche se una piattaforma AutoML può essere in grado di spiegare in che modo il modello effettua le previsioni, i modelli ensemble complessi possono essere molto più difficili da interpretare o spiegare. Per questo motivo risultano inadatti ad applicazioni che richiedono livelli elevati di trasparenza, come la diagnostica sanitaria oppure l’approvazione di prestiti o finanziamenti.
 

Possono essere costosi e difficili da migrare 

Molte piattaforme AutoML sono costose e creano dipendenze da sistemi proprietari, rendendo difficile trasferire i modelli in ambienti diversi o mantenerli in modo indipendente.

Queste limitazioni spiegano perché l’AutoML funziona meglio come strumento per potenziare le competenze umane anziché sostituirle completamente.

Conclusione

L’AutoML democratizza il machine learning consentendo a esperti di dominio di creare sofisticati modelli predittivi senza competenze tecniche, comprimendo diversi mesi di sviluppo in pochi giorni e accelerando notevolmente l’adozione dell’enterprise AI.

Le piattaforme AutoML sono in grado di testare sistematicamente centinaia di combinazioni di algoritmi per identificare quelle che generano i risultati più affidabili. Le piattaforme applicano inoltre best practice coerenti per la convalida e la valutazione, riducendo gli errori umani che possono compromettere le prestazioni del modello.

Tuttavia, i team devono anche considerare i limiti di AutoML, che includono mancanza di contesto, potenziali problemi di interpretabilità e una forte dipendenza dalla qualità dei dati. 

Se implementato con la dovuta attenzione alla governance dei dati, all’infrastruttura di qualità e alla supervisione umana, AutoML può essere uno strumento potente che amplifica le competenze umane e consente alle organizzazioni di applicare le iniziative basate sull’AI in tutta l’azienda.

Domande frequenti sull’AutoML

Il machine learning insegna ai computer ad apprendere schemi dai dati e fare previsioni. AutoML automatizza i lunghi e complessi task di machine learning, come la selezione degli algoritmi e il tuning dei parametri. Essenzialmente, il machine learning è la scienza e AutoML è un set di strumenti automatizzato che rende i modelli accessibili ai non addetti ai lavori.

MLOps si concentra sugli aspetti operativi della distribuzione, del monitoraggio e della manutenzione dei modelli di machine learning negli ambienti di produzione. AutoML automatizza lo sviluppo e l’addestramento iniziali di questi modelli. Mentre AutoML aiuta a creare modelli rapidamente, MLOps garantisce che funzionino in modo affidabile nelle applicazioni del mondo reale e continuino a funzionare bene anche quando le condizioni cambiano.

I principali fornitori di tecnologie come Amazon, Google e Microsoft offrono piattaforme AutoML come parte dei loro portafogli cloud. Altre aziende come DataRobot, H20.ai e IBM Watson forniscono strumenti simili. Inoltre, esistono librerie Python open source gratuite come Auto-sklearn e TPOT che automatizzano i flussi di lavoro Scikit-learn lasciando all’utente il pieno controllo sulla personalizzazione.

L’AutoML si sta evolvendo per integrarsi con i modelli fondamentali e i large language model, consentendo agli utenti di ottimizzare i modelli pre-addestrati invece di crearli da zero. Stanno emergendo strumenti AutoML specifici per il settore della visione artificiale, dell’elaborazione del linguaggio naturale e della previsione delle serie temporali. Inoltre, le moderne piattaforme AutoML si stanno concentrando maggiormente sull’explainability, su considerazioni etiche legate all’AI e su approcci ibridi che combinano processi automatizzati con competenze e supervisione umane.