Le leader  français du e-commerce, désormais également fournisseur de services professionnels, s’équipe de la data platform Snowflake pour renforcer ses usages data en interne et avec son écosystème. Objectif : garantir la disponibilité, les performances et la cohérence des data au sein de l’ensemble de ses filiales. 

Cdiscount : du commerce en ligne aux services orientés B2B

Figure historique du commerce en ligne français, créée en 1998 et marketplace depuis 2011, Cdiscount s’appuie aujourd’hui sur ses savoir-faire pour compléter sa stratégie avec des offres B2B : services de logistique, déploiement de marketplace et même cybersécurité.

A cette fin, le leader français du e-commerce avec son site en ligne Cdiscount.com, a filialisé progressivement l’ensemble de ses activités, avec C-Logistics (services logistiques), Octopia (édition de logiciels SaaS de marketplaces et e-commerce) ou encore Baleen (services de cybersécurité). Les activités de la DSI sont quant à elles regroupées au sein d’une filiale baptisée Peaksys. 

Avec près de 650 collaborateurs, Peaksys a pour fonction de répondre aux enjeux IT et numériques de tout l’écosystème Cdiscount. Et en particulier aux enjeux data, transverses à toutes ses filiales. 

Une nécessaire stratégie data

Dans ce contexte, Peaksys décide de mettre à plat ses choix technologiques liés aux données, et de déployer une stratégie data en cohérence avec ses objectifs de croissance. 

L’architecture data de Cdiscount se composait historiquement d’un datawarehouse SQL pour la business intelligence et le pilotage stratégique des activités, d’un datalake sur une plateforme Hadoop pour l’analyse du trafic et la data science, et d’une plateforme de monitoring temps réel pour le pilotage fin de l’activité commerciale. 

S’ils répondaient dans l’ensemble aux besoins de Cdiscount et ses filiales, ces choix technologiques n’étaient pas exempts de contraintes, notamment en matière de disponibilité, et tout particulièrement en période de pics d’activité, inhérents au métier même de distribution et e-commerce de l’entreprise. Hébergés on premise, le datawarehouse, le datalake, et les plateformes technologiques associées, manquaient en outre de capacité de scalabilité verticale et horizontale rapides, et par conséquent de flexibilité, la puissance de calcul et la capacité de stockage étant trop intimement liées. Enfin, avec trois plateformes distinctes, la cohérence des données entre elles demeurait difficile à garantir.

“Ces contraintes avaient aussi un coût, rappelle Julien Dulout, Directeur Data de Peaksys : maintenance corrective et évolutive de trois plateformes distinctes, projets d’intégration de données quasi systématiquement multipliés par trois, coûts du run, etc. Sans compter une qualité de service difficile à satisfaire et qui risquait de s’amoindrir dans le temps, à moins d’opérer de lourds investissements, tant matériels que logiciels et humains.” Conscient des enjeux data que sont ceux de Cdiscount pour son business, Peaksys a donc fait le choix de faire converger sa stratégie data autour d’une seule et unique plateforme, capable de d’accompagner Cdiscount dans sa croissance, à long terme.

Snowflake et cloud : des capacités de calcul et de stockage dissociés et scalables à l’infini.

Le premier réflexe des équipes a été de concevoir cette future plateforme en interne, “comme nous l’avons toujours fait !” souligne le Directeur Data. Mais un rapide tour du marché les convainc que les offres disponibles seront tout aussi adaptées. En particulier lorsque les équipes découvrent les fonctionnalités et spécificités de Snowflake, très rapidement identifiée comme la solution qui sera retenue. En premier lieu pour ses capacités technologiques “la possibilité de dissocier la puissance de calcul et les capacités de stockage nous a immédiatement séduits, se souvient Julien Dulout. Ce qui nous permet d’adresser précisément des ressources au contexte des cas d’usage, et donc de disposer d’une scalabilité infinie et immédiate.” 

Hébergée sur un cloud Azure en Europe, la plateforme Snowflake répondait également aux attentes de clarté budgétaire de la filiale technologique de Cdiscount, ce qui la différencie sensiblement des offres concurrentes : outre une approche « pay-as-you-go » en phase avec les attentes du marché, le budget mensuel est clair et compréhensible par toutes les parties prenantes, du donneur d’ordre technique à la direction financière. “Globalement, nos projections financières avec Snowflake étaient assez proches de l’existant,” détaille Julien Dulout. “Mais avec une qualité de service cible bien supérieure, et surtout avec une meilleure flexibilité, pour adapter la capacité de la plateforme à la saisonnalité du business.”

Pour s’assurer de repartir sur une base saine, Cdiscount a lancé un projet complet d’identification et de « nettoyage » des données existantes, d’organisation, classification et sécurisation des données au sein de la future plateforme, mais également de redéfinition des rôles et de la propriété des données, et bien sûr de formation. Avec un objectif en tête : disposer de données bien modélisées au sein d’une plateforme « propre », bien gouvernée et dont les accès et lieux de stockage sont parfaitement maîtrisés, avec une conformité RGPD totale. Un projet qui aura nécessité deux années de travail, la migration de près de 600 téraoctets de données, plus de 4 000 tables et autant de traitements, avant de pouvoir totalement décommissionner en 2022 l’ancienne solution de Big Data sur Hadoop, ainsi que la solution de pilotage d’activité temps réel.

Reste la dernière étape, le projet de migration des données et du datawarehouse vers la nouvelle plateforme Snowflake, qui devrait quant à lui aboutir à un décommissionnement progressif de l’ancienne solution. 

Snowflake, une plateforme data unique pour toutes les filiales de Cdiscount

Si les projets de nouvelle data platform d’une part, et de filialisation d’autre part, étaient décorrélés, “la platefome Snowflake a clairement participé à la réussite de la stratégie de filialisation de Cdiscount,” reconnaît le Directeur Data. Notamment en permettant à la fois une convergence des data sur une seule et même plateforme et la possibilité, via le déploiement de plusieurs tenants de Snowflake, d’un cloisonnement parfaitement hermétique des données des filiales B2B. 

Pour autant, des échanges plus ou moins ponctuels de données entre chaque tenant demeurent indispensables. “Dans ce cas, la fonctionnalité Collaboration de Snowflake est bien plus simple et moins onéreuse que la mise en place d’un flux de données traditionnel, explique Julien Dulout. Nous la considérons comme un véritable accélérateur de projets et de business, puisqu’il est possible de partager facilement certaines données avec une granularité très précise avec notre écosystème B2B (partenaires, clients, fournisseurs), et même de monétiser certains services de data sharing.”

En interne, les résultats sont rapidement visibles, en particulier en matière de qualité de service : disponibilité et performances sont parfaitement assurées tandis que les mises à jour en temps réel garantissent des données cohérentes à tous les utilisateurs en permanence. Quant aux data scientists, ils profitent d’algorithmes plus rapides, capables d’absorber des volumes de données plus importants : outre un gain de temps pour ces utilisateurs, l’entraînement des modèles s’en trouve également optimisé. Pour les équipes Peaksys enfin, les développements sont plus simples et plus rapides : “en venant du monde Hadoop, l’usage de SQL dans Snowflake nous simplifie la tâche,” rappelle le Directeur Data. 

Avec sa nouvelle plateforme data, Peaksys compte désormais aller plus loin et renforcer l’usage des données pour offrir la meilleure  expérience d’achat à ses clients: “Grâce notamment à l’amélioration du résultat des recherches sur le site, en passant par des recommandations d’achats plus ciblées ou encore l’affichage optimisé des facettes. Tous ces résultats étant générés grâce aux algorithmes qui utilisent les données de notre plateforme data . Et prochainement , par l’usage de la technologie Snowpark de Snowflake, qui nous permettra d’exécuter du code directement sur la plateforme donc plus proche des données afin d’augmenter notamment l’efficacité et la performance des nouveaux algorithmes qui seront développés par nos équipes de datascience,”conclut Julien Dulout.