Produit et technologie

Exécutez Pandas sur des données d’entreprise de plus de 1 To directement dans Snowflake

Snowflake Snowpark icon with photo of two people using a computer, on a blue and black background.

L’une des bibliothèques les plus utilisées de l’écosystème Python, Pandas, aide les développeurs à analyser, charger et transformer des données à travers la data science, le data engineering et le machine learning. Selon l’enquête StackOverflow 2024 auprès des développeurs, la flexibilité et la facilité d’utilisation de l’API Pandas ont entraîné une croissance rapide de sa popularité, Pandas étant utilisée par un développeur sur cinq.

Mais Pandas a été initialement conçue comme une structure de données en mémoire, ce qui limite sa capacité à fonctionner sur de grands jeux de données. Cela signifie souvent que les développeurs ne peuvent travailler qu’avec la quantité de données qu’acceptent leurs machines. Ces défis d’échelle entraînent une vitesse de développement lente et constituent des obstacles pour les équipes data qui doivent opérer sur de gros volumes de données. Par conséquent, les équipes data ont dû s’appuyer sur la réécriture du code panda dans d’autres frameworks pour opérer sur des données à plus grande échelle, jusqu’à présent. 

Aujourd’hui, nous sommes ravis d’annoncer la disponibilité pour tous nos clients de Pandas sur Snowflake, qui apporte le meilleur de l’AI Data Cloud Snowflake aux développeurs Python en permettant des opérations pandas évolutives et distribuées dans Snowflake.

Bar chart showing the performance results of running pandas on Snowflake, resulting in up to 30x faster performance.

Nos études comparatives ont montré que Pandas sur Snowflake s’adapte à plus d’un téraoctet de données, pour les jeux de données où la bibliothèque Pandas standard est à court de mémoire avec même moins de 100 Go. En moyenne sur les workloads représentatifs, nous constatons que Pandas sur Snowflake est environ 6 fois plus rapide à l’échelle de 1 Go et environ 30 fois plus rapide à l’échelle de 10 Go que Pandas Vanilla en mémoire. 

Réglage ou réécriture minimal requis

Avec l’introduction de Pandas sur Snowflake, les utilisateurs peuvent travailler avec leur API Pandas et leur sémantique familières. Cette fonctionnalité permet aux développeurs d’exécuter Pandas directement sur leurs données dans Snowflake, tandis que les requêtes sont traduites en SQL pour être exécutées nativement dans Snowflake. 

Pandas sur Snowflake fait partie de la bibliothèque Snowpark Python, qui permet un traitement de données évolutif du code Python sur la plateforme Snowflake. En modifiant simplement quelques lignes de déclaration d'importation, les développeurs obtiennent la même expérience de Pandas qu'ils connaissent et adorent avec l'évolutivité et les avantages de sécurité de Snowflake. Par conséquent, les migrations vers Snowflake sont simples et les équipes data évitent le temps et les coûts liés à la réécriture de leurs pipelines pandas vers d’autres frameworks Big Data ou au provisionnement de machines à mémoire élevée coûteuses. 

Un accès sécurisé dans Snowflake supprime les risques liés aux données sensibles sur les machines locales

La conception en mémoire de Pandas a créé des problèmes pour les entreprises, notamment les problèmes de sécurité et de gouvernance qui résultent de l'extraction des données d'entreprise vers des ordinateurs portables pour les traiter avec Pandas. Dans le cadre de la bibliothèque Snowpark Python, le calcul est transféré vers Snowflake directement dans le périmètre sécurisé et gouverné de Snowflake. 

Reposant sur le projet open source Modin

Chez Snowflake, nous nous engageons à aller à la rencontre des développeurs là où ils sont en intégrant les outils et normes open source aux puissantes capacités de l’AI Data Cloud Snowflake. Pandas sur Snowflake est construite sur le projet open source Modin. Modin est une bibliothèque Pandas distribuée qui a rejoint la famille de projets open source de Snowflake par une acquisition en octobre 2023. Modin est utilisé par des centaines de milliers de data scientists et développeurs pour faire évoluer en toute transparence leurs workflows Pandas. Snowflake contribue activement et soutient à la fois le projet open source et sa communauté dynamique.

A technology stack diagram of the Snowflake Python Developer Ecosystem, including ingestion, transformation, delivery processes on the dev experience and devops elements.

Pandas sur Snowflake fait partie intégrante de l’écosystème de développement Python de Snowflake, qui comprend également Snowpark Python, Snowflake Python API, Streamlit in Snowflake et Snowflake Notebooks. Ces dernières innovations produit apportent la puissance de l’AI Data Cloud Snowflake aux développeurs Python et permettent aux équipes data de faire évoluer efficacement les pipelines de données et les applications d’entreprise.

Pour en savoir plus, consultez la documentation Snowflake ou essayez ce guide Quickstart Snowflake Notebooks pour commencer.  

 

Data Pipeline icon of a pipe with streaming arrows on a blue background with code images

The Essential Guide to Data Engineering

Découvrez comment adopter de bonnes pratiques de data engineering et créer des pipelines de données efficaces pour votre organisation.
Auteur
Partager cet article

Construire de meilleurs pipelines de données : création et orchestration avec SQL et Python dans Snowflake

Découvrez les nouvelles fonctionnalités qui aident les data engineers à construire et orchestrer des pipelines de données évolutifs en SQL et Python, ce qui simplifie les flux de travail et renforce l’agilité.

Offrir le Postgres le plus adapté aux entreprises, conçu pour l’AI Data Cloud de Snowflake

Snowflake acquiert Crunchy Data et annonce Snowflake Postgres, une solution PostgreSQL pour entreprise, combinant flexibilité open source et évolutivité sécurisée.

L’IA agentique est l’avenir de la gestion des données

L’IA agentique et l’alliance Deloitte-Snowflake révolutionnent la gestion des données : automatisation, informations en temps réel, intelligence évolutive.

Créez plus rapidement des solutions d’IA grâce à une nouvelle prise en charge multimodale, une meilleure observabilité et bien plus encore

Snowflake permet aux développeurs de mettre l’IA personnalisée en production, facilitant la création d’applications d’IA et de ML de haute qualité et fiables.

Ingestion des données du secteur de l’industrie dans Snowflake

Les entreprises du secteur de l’industrie intègrent des technologies de pointe telles que l’IA, l’IdO et le ML dans leurs processus de production, ce qui se traduit par des quantités massives de données. C’est là où Snowflake intervient.

3 mesures concrètes pour permettre aux annonceurs de réussir dans un monde sans cookies

Des solutions concrètes pour les annonceurs dans un monde sans cookies : priorisation des données internes, IA/ML et collaboration sécurisée.

Développer des partenariats stratégiques en matière de données dans le secteur des télécommunications | Blog Snowflake

Découvrez l’importance des partenariats en matière de données dans le secteur des télécommunications au travers de cet article récapitulatif de la Mobile World Conference annuelle.

Les grands modèles de langage Llama 4 de Meta sont désormais disponibles sur Snowflake Cortex AI

Nous avons le plaisir de proposer les derniers modèles Llama 4 de Meta dans Snowflake Cortex AI !

Snowflake annonce des nouveautés dans Snowflake Horizon

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • Essai gratuit de 30 jours
  • Aucune carte bancaire requise
  • Annulation à tout moment