Produit et technologie

Exécutez Pandas sur des données d’entreprise de plus de 1 To directement dans Snowflake

Snowflake Snowpark icon with photo of two people using a computer, on a blue and black background.

L’une des bibliothèques les plus utilisées de l’écosystème Python, Pandas, aide les développeurs à analyser, charger et transformer des données à travers la data science, le data engineering et le machine learning. Selon l’enquête StackOverflow 2024 auprès des développeurs, la flexibilité et la facilité d’utilisation de l’API Pandas ont entraîné une croissance rapide de sa popularité, Pandas étant utilisée par un développeur sur cinq.

Mais Pandas a été initialement conçue comme une structure de données en mémoire, ce qui limite sa capacité à fonctionner sur de grands jeux de données. Cela signifie souvent que les développeurs ne peuvent travailler qu’avec la quantité de données qu’acceptent leurs machines. Ces défis d’échelle entraînent une vitesse de développement lente et constituent des obstacles pour les équipes data qui doivent opérer sur de gros volumes de données. Par conséquent, les équipes data ont dû s’appuyer sur la réécriture du code panda dans d’autres frameworks pour opérer sur des données à plus grande échelle, jusqu’à présent. 

Aujourd’hui, nous sommes ravis d’annoncer la disponibilité pour tous nos clients de Pandas sur Snowflake, qui apporte le meilleur de l’AI Data Cloud Snowflake aux développeurs Python en permettant des opérations pandas évolutives et distribuées dans Snowflake.

Bar chart showing the performance results of running pandas on Snowflake, resulting in up to 30x faster performance.

Nos études comparatives ont montré que Pandas sur Snowflake s’adapte à plus d’un téraoctet de données, pour les jeux de données où la bibliothèque Pandas standard est à court de mémoire avec même moins de 100 Go. En moyenne sur les workloads représentatifs, nous constatons que Pandas sur Snowflake est environ 6 fois plus rapide à l’échelle de 1 Go et environ 30 fois plus rapide à l’échelle de 10 Go que Pandas Vanilla en mémoire. 

Réglage ou réécriture minimal requis

Avec l’introduction de Pandas sur Snowflake, les utilisateurs peuvent travailler avec leur API Pandas et leur sémantique familières. Cette fonctionnalité permet aux développeurs d’exécuter Pandas directement sur leurs données dans Snowflake, tandis que les requêtes sont traduites en SQL pour être exécutées nativement dans Snowflake. 

Pandas sur Snowflake fait partie de la bibliothèque Snowpark Python, qui permet un traitement de données évolutif du code Python sur la plateforme Snowflake. En modifiant simplement quelques lignes de déclaration d'importation, les développeurs obtiennent la même expérience de Pandas qu'ils connaissent et adorent avec l'évolutivité et les avantages de sécurité de Snowflake. Par conséquent, les migrations vers Snowflake sont simples et les équipes data évitent le temps et les coûts liés à la réécriture de leurs pipelines pandas vers d’autres frameworks Big Data ou au provisionnement de machines à mémoire élevée coûteuses. 

Un accès sécurisé dans Snowflake supprime les risques liés aux données sensibles sur les machines locales

La conception en mémoire de Pandas a créé des problèmes pour les entreprises, notamment les problèmes de sécurité et de gouvernance qui résultent de l'extraction des données d'entreprise vers des ordinateurs portables pour les traiter avec Pandas. Dans le cadre de la bibliothèque Snowpark Python, le calcul est transféré vers Snowflake directement dans le périmètre sécurisé et gouverné de Snowflake. 

Reposant sur le projet open source Modin

Chez Snowflake, nous nous engageons à aller à la rencontre des développeurs là où ils sont en intégrant les outils et normes open source aux puissantes capacités de l’AI Data Cloud Snowflake. Pandas sur Snowflake est construite sur le projet open source Modin. Modin est une bibliothèque Pandas distribuée qui a rejoint la famille de projets open source de Snowflake par une acquisition en octobre 2023. Modin est utilisé par des centaines de milliers de data scientists et développeurs pour faire évoluer en toute transparence leurs workflows Pandas. Snowflake contribue activement et soutient à la fois le projet open source et sa communauté dynamique.

A technology stack diagram of the Snowflake Python Developer Ecosystem, including ingestion, transformation, delivery processes on the dev experience and devops elements.

Pandas sur Snowflake fait partie intégrante de l’écosystème de développement Python de Snowflake, qui comprend également Snowpark Python, Snowflake Python API, Streamlit in Snowflake et Snowflake Notebooks. Ces dernières innovations produit apportent la puissance de l’AI Data Cloud Snowflake aux développeurs Python et permettent aux équipes data de faire évoluer efficacement les pipelines de données et les applications d’entreprise.

Pour en savoir plus, consultez la documentation Snowflake ou essayez ce guide Quickstart Snowflake Notebooks pour commencer.  

 

Data Pipeline icon of a pipe with streaming arrows on a blue background with code images

The Essential Guide to Data Engineering

Découvrez comment adopter de bonnes pratiques de data engineering et créer des pipelines de données efficaces pour votre organisation.
Auteur
Partager cet article
Snowflake Build Event
Virtual Event

Watch [BUILD] On Demand

Join developers, data scientists, engineers and all data professionals for exclusive product announcements, “how to” technical sessions, and hands-on labs focused on Snowflake’s latest innovations.

Créez plus rapidement des solutions d’IA grâce à une nouvelle prise en charge multimodale, une meilleure observabilité et bien plus encore

Snowflake permet aux développeurs de mettre l’IA personnalisée en production, facilitant la création d’applications d’IA et de ML de haute qualité et fiables.

Ingestion de données du secteur de l’industrie dans Snowflake

Les entreprises du secteur de l’industrie intègrent des technologies de pointe telles que l’IA, l’IdO et le ML dans leurs processus de production, ce qui se traduit par des quantités massives de données. C’est là où Snowflake intervient.

Éliminez les silos de données : créez, déployez et servez des modèles à grande échelle avec Snowflake ML

Comment Snowflake ML permet le développement et la production de modèles évolutifs avec des outils intégrés (entraînement, inférence, observabilité, gouvernance).

L’IA agentique est l’avenir de la gestion des données

L’IA agentique et l’alliance Deloitte-Snowflake révolutionnent la gestion des données : automatisation, informations en temps réel, intelligence évolutive.

Snowflake renforce son engagement à intégrer des plateformes axées sur l’efficacité et la sécurité à l’écosystème militaire et de défense avec l'autorisation DOD IL5

Snowflake obtient l’autorisation DOD IL5 du gouvernement américain, qui permet des solutions data sécurisées et conformes pour la sécurité nationale.

Amélioration continue de la productivité des développeurs chez Snowflake

Snowflake relève les défis des bases de code en améliorant l’intégration continue, les environnements de développement, la collaboration et la responsabilité.

Simplification de la gouvernance de l’accès aux données : Snowflake investit dans Theom pour automatiser la protection des données

Snowflake investit dans Theom pour automatiser la protection des données et simplifier la gouvernance à l'aide de solutions de sécurité basées sur l'IA.

Une plateforme Snowflake encore plus facile à utiliser et plus fiable

La plateforme Snowflake mise à jour est encore plus facile à utiliser et plus fiable, et favorise l’automatisation, la sécurité, la gouvernance et la préparation à l’IA.

Snowflake Arctic – LLM pour IA d’entreprise

Découvrez Snowflake Arctic, un LLM de premier plan dédié aux entreprises qui repousse les limites de l’entraînement économique et de l’accessibilité.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • Essai gratuit de 30 jours
  • Aucune carte bancaire requise
  • Annulation à tout moment