製品 & テクノロジー

1TB以上のエンタープライズデータに対してSnowflakeでpandasを直接実行

Snowflake Snowpark icon with photo of two people using a computer, on a blue and black background.

Pythonエコシステムで最も広く使用されているライブラリの1つであるpandasは、開発者がデータサイエンス、データエンジニアリング、機械学習にまたがってデータを分析、ロード、変換するのに役立ちます。StackOverflow 2024開発者調査によると、pandas APIの柔軟性と使いやすさによって人気が急速に高まり、5人に1人がpandasを使用しています。

しかし、pandasは当初インメモリデータ構造として設計されており、大規模なデータセットを処理する能力が制限されていました。多くの場合、開発者はマシンに収まる量のデータしか扱えません。このような規模の課題は、開発速度の低下や、大量のデータを運用する必要があるデータチームにとっての障害となります。その結果、これまでデータチームはpandasコードを他のフレームワークに書き換えて大規模データを操作せざるを得ませんでした 。

本日、pandas on Snowflakeの一般提供を発表します。これにより、Snowflake内でのスケーラブルな分散型のpandas操作が可能になるため、Python開発者にSnowflake AIデータクラウドのメリットをもたらします。

Bar chart showing the performance results of running pandas on Snowflake, resulting in up to 30x faster performance.

当社のベンチマーク調査によると、標準pandasライブラリのメモリが100GB未満でも不足しているデータセットでは、Snowflakeのpandasは1テラバイトを超えるデータにまで拡張します。代表的なワークロードの平均では、Snowflake上のpandasはメモリ上のVanilla pandasよりも1GBスケールで約6倍、10GBスケールで約30倍高速に動作します。 

使用に必要な微調整や書き換えが最小限

Snowflakeにpandasが導入され、ユーザーは使い慣れたpandas APIとセマンティクスで作業できるようになりました。この機能により、開発者はSnowflakeのデータに対してpandasを直接実行でき、クエリはSQLに変換されてSnowflakeでネイティブに実行されます。 

pandas on Snowflakeは、Snowpark Pythonライブラリの一部であり、Snowflakeプラットフォーム内でのPythonコードのスケーラブルなデータ処理を可能にします。開発者は、インポートステートメントを数行変更するだけで、Snowflakeのスケーラビリティとセキュリティのメリットを生かし、これまで使い慣れたものと同じpandasエクスペリエンスを得られます。そのため、Snowflakeへの移行が容易になり、データチームはpandasパイプラインを他のビッグデータフレームワークに書き換えたり、高コストの大容量メモリマシンをプロビジョニングしたりする時間とコストを回避できます 。

Snowflake内の安全なアクセスにより、ローカルマシンの機密データリスクを排除

pandasのメモリ内設計は、特に企業データをpandasで処理するためにノートパソコンに取り込むことによるセキュリティとガバナンスの懸念など、組織に問題をもたらしました。Snowpark Pythonライブラリの一部として、コンピューティングはSnowflakeのセキュアで管理された境界内で直接Snowflakeにプッシュダウンされます。 

Modinオープンソースプロジェクト上に構築

Snowflakeでは、オープンソースのツールや標準とSnowflake AIデータクラウドの強力な機能を統合することにより、開発者とのミーティングに取り組んでいます。SnowflakeのpandasはModinオープンソースプロジェクト上に構築されています。Modinは、Snowflakeが2023年10月に買収し、オープンソースプロジェクトファミリーに加わった分散型のpandasライブラリです。Modinは、数十万人のデータサイエンティストと開発者がpandasワークフローをシームレスに拡張するために使用しています。Snowflakeは、オープンソースプロジェクトとその活発なコミュニティの両方に積極的に貢献し、サポートしています。

A technology stack diagram of the Snowflake Python Developer Ecosystem, including ingestion, transformation, delivery processes on the dev experience and devops elements.

pandas on Snowflakeは、Snowpark PythonSnowflake Python API、Streamlit in SnowflakeSnowflake Notebookなど、SnowflakeのPython開発者エコシステムに不可欠な要素です。これらの最新の製品イノベーションは、Snowflake AIデータクラウドの力をPython開発者にもたらし、データチームがエンタープライズデータパイプラインとアプリケーションを効率的に拡張できるようにします。

詳細については、Snowflakeドキュメントをご覧ください。また、Snowflake Notebookでこのクイックスタートをお試しください  

 

Data Pipeline icon of a pipe with streaming arrows on a blue background with code images

The Essential Guide to Data Engineering

Learn how you can build a modern data engineering practice and create efficient data pipelines for your organization.
記事をシェアする
Snowflake Build Event
Virtual Event

Watch [BUILD] On Demand

Join developers, data scientists, engineers and all data professionals for exclusive product announcements, “how to” technical sessions, and hands-on labs focused on Snowflake’s latest innovations.

あなたにおすすめ

Scikit-learnとPandasのためのNVIDIA CUDA-XライブラリによるSnowflakeの機械学習の強化

Snowflake MLにはNVIDIA cuMLとcuDFが追加され、scikit-learnとpandasをGPUで高速化しました。これにより、コードを変更することなく最大200倍の高速化が実現します。

Snowflakeは更なるインテリジェントなガバナンスが確保されたAIを企業に提供

Snowflakeは、Snowflakeインテリジェンス、直感的なデータエージェント開発、高度なMLOpsなどの新機能を通じて、インテリジェントでガバナンスの確保されたAIのスケーリングを支援します。

データとAIが関税の変動の克服にどう役立つか

企業がデータを活用して関税の変動に対応し、調達、価格設定、物流を迅速かつ正確に調整して、サステナブルな成長を実現している様子を紹介します。

Honeydew Revolutionizes Business Intelligence with Investment from Snowflake Ventures

Snowflake Venturesは、強力なセマンティックレイヤーによってBIを変換し、Snowflakeエコシステム内で直接迅速かつ一貫したインサイトを可能にすることで、Honeydewを支援しています。

AI駆動のセールスアシスタント:生産性の未来

SnowflakeのAI駆動のセールスチャットボットは、セールスイネーブルメントツール、ドキュメントサイト、800以上のカスタマーストーリーから情報を迅速に得て、重要な質問に回答できます。

Snowflake Postgres: Built for Developers, Ready for the Enterprise

Snowflake Postgresが、開発ライフサイクル全体を通じて開発者をサポートするために、互換性のあるPostgresの本番稼働可能なエンタープライズグレードの基盤をどのように提供しているかをご紹介します。

Ensure AI’s ROI by Understanding Its TEI: Snowflake’s Total Economic Impact

AIイニシアチブの総合的な経済効果を把握することで、AIイニシアチブの強力なROIを確保する方法を学びます。SnowflakeのAIデータクラウドがどのように3年間で354%のROIを達成したか、メリット、コスト、柔軟性、リスクに関するインサイトをご紹介します。

Snowflake Startup Spotlight: Superduper Agents

Superduperのエージェントオーケストレーションプラットフォームは、AIモデルと既存のデータインフラストラクチャを接続し、Snowflakeのスタートアップスポットライトで特集されているエンタープライズAIを実現します。

Snowpark pandas API: Run distributed pandas at scale

Discover Snowpark pandas API: Utilize distributed pandas at scale within Snowflake, enhancing Python development with seamless execution and optimal performance.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30日間の無料トライアル
  • クレジットカード不要
  • いつでもキャンセル