STORIE DI CLIENTI
Sanofi accelera l’analisi dei dati clinici reali con Snowpark
Sostituendo la sua soluzione Spark gestita con Snowflake, Sanofi accelera l’elaborazione dei dati e riduce il TCO, garantendo al contempo la conformità e la governance dei dati.
RISULTATI CHIAVE:
50%
Miglioramento delle prestazioni rispetto alla precedente soluzione Spark gestita
100 mln
Record dei pazienti per coorte, analizzati in quattro minuti in media
Settore
PharmaSede
Bridgewater, NJPerseguire i miracoli della scienza
Con sedi principali a Bridgewater, NJ e Cambridge, MA, Sanofi impiega più di 13.000 professionisti in tutti gli Stati Uniti. Sanofi U.S. comprende quattro business unit: specialty care, vaccini, medicina generale e consumer healthcare. In tutto il mondo, più di 100.000 dipendenti Sanofi sono impegnati a perseguire i miracoli della scienza per migliorare la vita delle persone.
Punti chiave
Dati clinici reali per la comunità medica: Sanofi sta creando una web app reattiva basata su Snowflake per consentire al personale medico di analizzare dati clinici reali per la valutazione dei rischi/benefici delle terapie.
Da Spark gestito a Snowpark: la migrazione dalla precedente soluzione Spark gestita di Sanofi ha prodotto un miglioramento delle prestazioni del 50% ed eliminato sfide come l’amministrazione, la configurazione e la concorrenza.
Professional Services: i Professional Services e Snowpark Migration Accelerator, uno strumento per la conversione automatizzata del codice, hanno aiutato a convertire il codice PySpark in Snowpark e accelerare la migrazione.
Scalabilità per supportare un’applicazione basata sui dati clinici reali
Sanofi sta lavorando allo sviluppo di una piattaforma di elaborazione dei dati estesa a tutta l’azienda al fine di supportare le esigenze di analisi della comunità medica, in particolare nel contesto della scoperta di nuovi farmaci. Il progetto ruota attorno alla creazione di una web app intuitiva che consentirà al personale medico di immettere filtri di query relativi a malattie, farmaci o procedure e identificare coorti di pazienti che soddisfano criteri specifici per analizzare più rapidamente i dati clinici reali e valutare i benefici o i rischi di una determinata terapia.
La web app elabora miliardi di record per generare gli insight analitici di interesse dell’utente. Per supportare tutto questo, l’architettura dati precedente utilizzava un motore Spark gestito come layer di calcolo. Tuttavia, il team dati di Sanofi affrontava numerose sfide legate alla distribuzione e alla manutenzione manuali di Spark, con problemi di scalabilità delle risorse, frequenti interruzioni della pipeline causati dalla capacità di calcolo limitata, problemi di concorrenza nei momenti di massimo utilizzo e spostamenti di dati complessi tra più piattaforme.
Per servire meglio i suoi clienti, il team dati di Sanofi ha deciso di riprogettare il suo motore di analisi dei dati. Suku Muramula, Architecture and Data Engineering Lead, spiega: “Utilizzavamo già Snowflake per varie attività di elaborazione dei dati, così abbiamo colto l’opportunità di esplorare Snowpark come possibile soluzione per le nuove esigenze di elaborazione dei dati”.
Sanofi riprogetta il motore di analisi dei dati su Snowflake e Snowpark
Sanofi ha scelto Snowflake e Snowpark, il set di librerie e runtime che consente di distribuire in modo sicuro il codice Python, per una delle riprogettazioni del suo motore di analisi dei dati. La separazione tra storage e capacità di calcolo, la manutenzione quasi inesistente e la scalabilità on demand di Snowflake hanno consentito a Sanofi di gestire in modo efficiente workload e volumi di dati crescenti senza compromettere le prestazioni, e mantenendo i costi a un livello ottimale.
Fin dall’inizio della migrazione, il team dati ha dato la priorità a un’architettura incentrata sui servizi. L’obiettivo era creare un sistema robusto ed efficiente con servizi indipendenti, potenziando l’isolamento dei guasti per garantire che eventuali problemi in un singolo servizio non si riflettano sull’intero sistema. Questo approccio è stato fondamentale nell’accelerare il percorso di migrazione da un cluster Spark gestito a Snowflake, poiché ha minimizzato le interruzioni della web app.
Figura 1. Architettura attuale con l’ecosistema Snowflake e Snowpark.
Come illustrato nella figura 1, invece di utilizzare pipeline complesse, la nuova architettura semplifica l’elaborazione dei dati su un’unica piattaforma per dati e calcolo con Snowflake e Snowpark. Questo ha ridotto la latenza e migliorato le prestazioni complessive, accelerando l’elaborazione e l’analisi dei dati.
Le funzionalità di Snowflake per la governance dei dati, che comprendono autorizzazioni granulari e controllo degli accessi basato sui ruoli, assicurano un controllo efficace dei dati e delle librerie. Questo garantisce la sicurezza dei dati e la conformità alle policy.
Oltre a velocità di elaborazione dati superiori, per il nostro settore è essenziale proteggere la proprietà intellettuale e assicurare la governance e la sicurezza degli algoritmi. Con Snowpark come layer di calcolo per il codice Python nella nostra data platform Snowflake non dobbiamo più trasferire i dati e gli amministratori mantengono il controllo totale di tutti i dati e le librerie.”
Suku Muramula
Migliorare le prestazioni del 50% con Snowpark
Con l’architettura precedente, Sanofi doveva affrontare varie sfide legate all’utilizzo di un motore Spark gestito come layer di calcolo. La distribuzione manuale del motore richiedeva aggiornamenti manuali ogni volta che venivano introdotte nuove funzionalità o apportate modifiche alla pipeline di back-end. Questo aumentava la necessità di coordinamento e la dipendenza da operazioni manuali per tutti i processi e, di conseguenza, l’esecuzione end‑to‑end della pipeline richiedeva più tempo.
Anche la creazione e la configurazione di un cluster Spark richiedevano molte risorse. “Abbiamo osservato che il cluster non era scalabile e richiedeva una configurazione manuale per creare un’istanza di dimensioni maggiori per eseguire qualsiasi query complessa o intensiva, causando problemi di prestazioni nella pipeline”, dichiara Ratan Roy, Data Engineer di Sanofi. “Inoltre non erano disponibili ottimizzazioni automatiche e l’elaborazione richiedeva quantità enormi di memoria.”
La mancanza di risorse di calcolo causava spesso rallentamenti o interruzioni della pipeline. Poiché l’ambiente Spark gestito era condiviso, le risorse di calcolo erano disponibili in base alla disponibilità del cluster Spark, e non on demand in base alla richiesta.
La piattaforma basata su web utilizzata dalla comunità medica presentava problemi di concorrenza quando più utenti inviavano richieste per eseguire simultaneamente programmi e applicazioni web. Considerando i requisiti intensivi di elaborazione di più di un miliardo di record da parte del cluster Spark, il tempo di risposta medio per una richiesta era di circa 15 minuti negli orari di punta.
Mentre la separazione tra capacità di calcolo e storage dei dati è nativa nella piattaforma Snowflake, la precedente soluzione Spark gestita non disponeva di un layer di storage integrato. L’elaborazione dei dati doveva essere eseguita separatamente e richiedeva ulteriori operazioni di preparazione, configurazione e spostamento dei dati tra più piattaforme, allungando ulteriormente i tempi di elaborazione.
Durante il processo che ha portato alla decisione di migrare a Snowpark e alla piattaforma Snowflake, il team dati di Sanofi ha eseguito un’analisi di benchmark che ha rilevato un miglioramento generalizzato delle prestazioni del 50% rispetto al cluster Spark gestito, oltre a una riduzione complessiva del TCO. “Possiamo eseguire l’elaborazione dei dati su ampia scala all’interno dell’ambiente Snowflake stesso, ottenendo maggiore agilità e velocità a un costo inferiore”, dichiara Ratan. “Con Snowflake come archivio dati centrale e Snowpark per l’elaborazione, abbiamo ridotto i costi associati allo spostamento dei dati, ottenendo quindi prestazioni accelerate e costi di elaborazione ridotti.”
“Abbiamo costruito tutta la nostra pipeline e l’algoritmo di data engineering utilizzando Python e Snowpark. Tutte le query sui dati sono elaborate attraverso Snowpark sulla piattaforma Snowflake.”
Ratan Roy
La partnership con Snowflake Professional Services
Quando Sanofi ha deciso di migrare da Spark a Snowpark, è stata fondamentale la collaborazione con il team Snowflake Professional Services.
“Francamente sono molto soddisfatto della nostra esperienza con i Professional Services. Ci hanno supportati fin dal primo giorno, aiutandoci a gestire e identificare i requisiti per il successo della migrazione”, dichiara Muramula. “La valutazione del nostro grado di preparazione alla migrazione è stata assolutamente eccezionale, e direi che ci ha aiutati a ottenere insight preziosi sul processo di migrazione e a definire le risorse e identificare le potenziali mancanze”, aggiunge Muramula.
Snowpark Migration Accelerator, uno strumento per la conversione automatizzata del codice, ha convertito il codice PySpark in Snowpark e accelerato la migrazione. “Questo ha fatto un’enorme differenza e ci ha aiutati a procedere rapidamente garantendo al contempo l’integrità del codice. Nel complesso, consiglio vivamente di lavorare con i Professional Services a chi deciderà di intraprendere un percorso di questo tipo”, dichiara Muramula.
Semplificare il data sharing e la data science
Con l’app attuale, il team dati di Sanofi si sta concentrando su alcune fonti di dati specifiche. Tuttavia, il piano prevede l’espansione a più sorgenti dati per consentire alla comunità medica di svolgere ricerche su altre malattie e terapie.
“Le nostre procedure di raccolta ed elaborazione dei dati continuano a evolversi nel tempo, richiedendo la gestione di miliardi di record aggiuntivi per migliorare le nostre capacità di analisi”, dichiara Muramula. “Siamo convinti che potremo continuare ad affidarci alla piattaforma Snowflake per la sua robustezza e scalabilità dinamica e per la sua capacità di adattarsi facilmente a un panorama in costante espansione.”
Inizia la tua provagratuita di 30 giorni
Prova Snowflake gratis per 30 giorni e scopri come l’AI Data Cloud aiuta a eliminare la complessità, i costi e i vincoli tipici di altre soluzioni.