Per creare modelli mantenendo la privacy dei data set sensibili o per generare facilmente nuovi dati che arricchiscano l’addestramento, Snowflake supporta anche la generazione di dati sintetici facili e sicuri (public preview). Si tratta di una potente funzionalità che consente ai data scientist di creare pipeline e modelli a partire dai dati senza compromettere attributi sensibili e senza attendere lunghi e complessi processi di approvazione. Il data set sintetico ha le stesse caratteristiche del data set di origine, ad esempio nome, numero e tipo di dati delle colonne, e un numero uguale o inferiore di righe.

Modelli in produzione

Indipendentemente da dove viene creato il modello, Snowflake ML consente di eseguire facilmente l’inferenza su scala di produzione e gestire il ciclo di vita del modello con funzionalità di sicurezza e governance integrate. Dopo aver effettuato il login a Snowflake Model Registry, un modello può essere servito in modo trasparente per l’inferenza distribuita utilizzando Model Serving in Snowpark Container Services (SPCS). Con questa funzionalità, i workload di inferenza possono sfruttare i cluster di calcolo delle GPU, eseguire modelli di grandi dimensioni come Hugging Face embedding o altri modelli transformer e utilizzare qualsiasi package Python da repository open source o privati. Puoi anche distribuire modelli a un endpoint API REST per consentire alle tue applicazioni di invocare l’inferenza del modello per le applicazioni a bassa latenza (l’endpoint online è in revisione pubblica). Con model registry e soluzioni per l’inferenza, ora gli utenti possono utilizzare facilmente qualsiasi modello ML addestrato all’interno o all’esterno di Snowflake, utilizzando uno dei modelli integrati o la custom model API per integrare qualsiasi altro tipo di modello, compresi le pipeline di pre- e post-elaborazione e i modelli partizionati, per eseguire l’inferenza distribuita scalabile in virtual warehouse o in SPCS a seconda delle esigenze dei workload.