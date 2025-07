Dans sa précédente architecture, Sanofi rencontrait plusieurs difficultés en utilisant un moteur Spark géré en guise de couche de calcul. Le déploiement manuel du moteur nécessitait des mises à jour manuelles chaque fois que de nouvelles fonctionnalités étaient introduites ou que des changements étaient réalisés au niveau du pipeline back-end. Cette coordination accrue et cette dépendance manuelle entre les différents processus augmentaient le temps nécessaire pour exécuter le pipeline de bout en bout.

La création et la configuration d’un cluster Spark exigeaient également un nombre important de ressources. « Nous avons observé que le cluster n’était pas évolutif, et qu’il nécessitait une configuration manuelle pour faire fonctionner une instance plus volumineuse permettant de soumettre des requêtes complexes ou nombreuses. Cela provoquait des problèmes de performance au niveau du pipeline », explique Ratan Roy, Data Engineer chez Sanofi. « Aucune optimisation automatique n’était intégrée et le traitement des données nécessitait un très grand espace de mémoire. »

L’équipe en charge des données a vécu de nombreuses situations de retard ou de défaillance du pipeline en raison d’un manque de ressources de calcul. Du fait du partage de l’environnement Spark géré, les ressources de calcul étaient disponibles en fonction de la disponibilité du cluster Spark, et non à la demande en fonction de la requête.

La plateforme basée sur le web, utilisée par la communauté des utilisateurs médicaux, rencontrait des problèmes de simultanéité lorsque plusieurs utilisateurs interactifs envoyaient des requêtes pour exécuter simultanément des programmes d’applications web. Au vu des exigences de traitement de plus d’un milliard de dossiers par le cluster Spark, le temps de réponse analytique moyen pour une requête était d’environ 15 minutes au moment des pics d’utilisation.

Alors que la séparation du calcul et du stockage de données est native sur la plateforme Snowflake, l’ancienne solution en Spark managé n’avait pas de couche de stockage de données intégrée. Le traitement des données devait être exécuté séparément et exigeait une installation, une configuration et un transfert de données supplémentaires entre plusieurs plateformes, ce qui rallongeait les temps de traitement des données.

Après avoir décidé de migrer vers Snowpark et la plateforme Snowflake, l’équipe en charge des données de Sanofi a mené une analyse comparative qui a révélé une amélioration globale de 50 % des performances et une baisse du coût total de possession, en comparaison avec l’ancien cluster Spark géré. « Nous sommes désormais capables de traiter des données à grande échelle au sein de l’environnement Snowflake, en bénéficiant d’une flexibilité et d’une vitesse accrues à un coût inférieur », ajoute Ratan Roy. « En utilisant Snowflake comme espace de stockage de données central et le calcul Snowpark, nous avons limité nos coûts de transfert des données, ce qui nous a permis d’accélérer nos performances et de réduire notre coût de calcul. »