データサイロの解消：Snowflake MLによる大規模モデルの構築、展開、提供

Digital illustration of Snowflake ML linking to data sources and external outputs.

多くのMLチームは最善を尽くしているにもかかわらず、それぞれのツールが異なるせいでほとんどのモデルが本番稼働にたどり着くことができず、データやMLパイプラインの断片化や複雑なインフラストラクチャ管理が生じることがよくあります。Snowflakeは、お客様がより簡単かつ迅速に高度なモデルを本番稼働できるように継続的に注力しています。2024年には、機械学習モデルの開発、推論、運用化のための統合された機能セットであるSnowflake MLのエンドツーエンドのML機能のフルスイートを始めとする、200を超えるAI機能をローンチしました。今年も私たちの勢いは止まりません。GPUを活用したMLワークフローのための以下の機能について、本番ワークロード向けに一般提供を開始したことを発表します。

開発コンテナランタイム上のSnowflake Notebook（現在、AWSで一般提供中、Azureでパブリックプレビュー中）は、データロードを最適化し、モデルのトレーニングとハイパーパラメーターチューニングを複数のCPUまたはGPUに分散します。これらは、Snowflakeのセキュリティ境界内のフルマネージドのコンテナ環境で実行されるため、セキュアかつほぼ即時のデータアクセスが可能になります。Snowflake MLは、合成データの生成と使用（現在パブリックプレビュー中）もサポートしています。
推論：AWSとAzureの両方で一般提供中となったSnowparkコンテナサービスのモデルサービングは、トレーニングの場所に関係なくあらゆるモデルについて、CPUまたはGPUを使用した簡単かつ高パフォーマンスの分散推論を提供します。
モニタリング：現在、すべての地域で一般提供となっているMLオブザーバビリティには、Snowflakeで推論を実行または保存しているモデルについて、パフォーマンスやドリフトなどの品質メトリクスのモニタリングとアラート設定を行うための組み込みのツールが用意されています。
ガバナンス：MLのオブジェクトとワークフローは、Snowflake Horizonのガバナンス機能（現在一般提供中のデータとMLのリネージなど）とフル統合されています。

2024年11月から2025年1月の期間において、毎週4,000社を超えるお客様がSnowflakeのAI機能を使用していました。カナダの大規模な顧客ロイヤルティプログラムであるScene+も、Snowflake MLを使用してMLワークロードの合理化と改善を実現しています。

「Snowflake MLは、Scene+においてMLモデルを本番稼働させる上で、まさにゲームチェンジャーでした。ノートブック、特徴量ストア、モデルレジストリ、MLオブザーバビリティといったSnowflake MLのエンドツーエンド機能を活用することで、プラットフォーム間のデータ移動をすべてなくし、プロジェクトのタイムラインを短縮し、コストを削減しました。Snowflake MLでモデルを構築・デプロイすることで、Scene+は30以上のモデルで本番稼働までの時間を60%以上、コストを35%以上削減しました」

Chris Kuusela氏

Scene+ データサイエンス担当Director

Image of logos of companies building on Snowflake ML

Figure 1. Select examples of customers building on Snowflake ML.

開発

コンテナランタイム上のSnowflake Notebookは、大規模なML開発に特化しており、インフラストラクチャの管理や設定なしに競争力のあるトレーニングパフォーマンスを提供します。

コンテナランタイム上のSnowflake Notebookのすぐに利用可能なデフォルト設定を使用したトレーニングにおいて、私たちのベンチマークでは、表形式データについて、マネージドSparkソリューションや競合するクラウドサービスと比較して、Snowflakeでの分散型XGBoostの方が2倍以上高速であることが示されています。画像データについても、Snowflake ML上で標準設定で分散型PyTorchを実行すると、同じマネージドSparkソリューションと比較して、50,000枚の画像データセットの処理速度が10倍以上向上しました。Snowflake MLを使用することで、データサイエンティストとMLエンジニアはインフラストラクチャとスケーラビリティにかける時間を大幅に短縮できます。そして代わりに、MLモデルの開発と最適化に多くの時間を使用して迅速なビジネスインパクトに注力できるようになります。

Snowflake Tabular and Image Classification Performance chart

Figure 2. Benchmark shows that ML training in Snowflake Notebooks on Container Runtime is over 10x faster on a 50,000-image dataset and almost 3x faster on a 30GB tabular data set compared to managed Spark. Lower means faster performance.

コンテナランタイムは、以下の機能により、わずか数クリックでインフラストラクチャ管理を抽象化し、MLトレーニングを高速化します。

コンピュートプールを選択するシンプルなノートブック設定によって、データサイエンティストは、トレーニングタスクのニーズに合わせてCPUまたはGPUのプールを選択できます。すべてのお客様アカウントは、デフォルトのCPUおよびGPUコンピュートプールにアクセスできるように自動的にプロビジョニングされます。このコンピュートプールは、アクティブなノートブックセッション中のみ使用され、非アクティブな場合には自動的に一時停止されます。詳細については、ドキュメントを参照してください。
ML開発をサポートする最新かつ最も一般的なライブラリとフレームワーク（PyTorch、XGBoost、LightGBM、scikit-learnなど）がプリインストールされた、CPUとGPUの固有のイメージセット。データサイエンティストはSnowflake Notebookを立ち上げるだけで、すぐに作業に取りかかることができます。
pipによるオープンソースリポジトリへのセキュアなアクセスと、Hugging Faceなどのハブから任意のモデルを取り込む機能（こちらの例を参照）。
SnowflakeテーブルをpandasまたはPyTorch DataFrameとして効率的にマテリアライズする、最適化されたデータ取り込みAPI。複数のCPUまたはGPUで並列化することにより、効率的にデータが並列に取り込まれ、DataFrameとしてノートブックに表示されます。詳細については、ドキュメントを参照してください。
XGBoost、LightGBM、PyTorchが提供する使い慣れたオープンソースインターフェイスを拡張しながら、基盤となるインフラストラクチャを、オーケストレーションの必要なしに複数のCPUまたはGPUに処理を分散する、分散型モデルトレーニングと分散型ハイパーパラメータ最適化API（例はこちらを参照）。

多くの企業がすでにコンテナランタイムを利用し、GPUへの容易なアクセスによって、コスト効率よく高度なMLユースケースを構築しています。代表的なお客様は、CHG Healthcare、Keysight Technologies、Aviosなどです。

CHG Healthcare

CHG Healthcareは、45年以上の業界専門知識を持つヘルスケア人材派遣企業で、AI/MLを使用して130の医療分野の70万人の医療従事者に人材派遣ソリューションを提供しています。CHGは、Snowflake MLでエンドツーエンドのMLモデルを構築、生産しています。

CHG HealthcareのデータサイエンティストであるAndrew Christensen氏は、「コンテナランタイムでSnowflake NotebookのGPUを使用することこそが、私たちの機械学習ニーズを満たす最もコスト効率の高いソリューションであることが判明しました」と述べています。「私たちは、Snowflake MLのオープンソースライブラリを使用したSnowflakeの並列処理を活用することで、ワークフローの柔軟性と効率性を改善できることを高く評価しています」

Keysight Technologies

Keysight Technologiesは、電子設計とテストのソリューションのリーディングプロバイダーです。13の業界において全世界で55億ドル以上の収益を得ており、33,000社以上の顧客を抱え、イノベーションに関する3800件以上の特許を保有しています。Keysightは、コンテナランタイムを使用してSnowflake MLでスケーラブルな販売と予測のモデルを構築しています。

Keysight TechnologiesのAnalytics and Automation for IT Global Applications部門を担当するKrisna Moleyar氏は、「コンテナランタイムでSnowflake Notebookを試してみたのですが、驚くべき体験でした」と述べています。「CPUとGPUの両方での分散処理、最適化されたデータロード、（Snowflake）モデルレジストリとのシームレスな統合によってサポートされる柔軟なコンテナインフラストラクチャにより、ワークフローの効率が改善しました」

Avios

4,000万人以上の会員と1,500社のパートナーを擁するトラベルアワードのリーダーであるAviosは、コンテナランタイムでSnowflake Notebookを使用して、ビジネスに必要な柔軟性を備えた詳細な分析とデータ分析タスクを実行しています。

AviosのデータサイエンティストであるOlivia Brooker氏は、「コンテナランタイムでSnowflake Notebookを使用すると、柔軟性と速度が向上するので、とても気に入っています」と述べています。「タイムアウトや、変数を忘れる心配なしにコードを実行できます。PyPIの統合が可能になることで、より幅広いPythonパッケージを使用し、分析やデータサイエンスのタスクをより柔軟に行えるというメリットもあります」

Snowflakeは、機密データセットのプライバシーを維持しながらモデルを構築したり、トレーニングのエンリッチメントのための新しいデータを簡単に生成したりするために、合成データ生成（パブリックプレビュー中）もサポートしています。これは、データサイエンティストが機密属性を損なうことなく、時間のかかる面倒な承認プロセスを待たずに、データのパイプラインとモデルを構築できる強力な機能です。合成データセットは、列の名前、数、データ型など、ソースデータセットと同じ特性を持ち、行数は同じかまたは少なくなっています。

本番環境でのモデルサービング

モデルの構築場所に関係なく、Snowflake MLでは、組み込みのセキュリティとガバナンスにより、本番規模の推論を実行し、モデルのライフサイクルを簡単に管理できます。Snowflakeモデルレジストリに記録されたモデルは、Snowparkコンテナサービス（SPCS）でのモデルサービングにより、分散推論向けにシームレスに提供できます。この機能により、推論ワークロードはGPUコンピュートクラスターを活用し、Hugging Face埋め込みなどの大規模モデルや他のTransformerモデルを実行し、オープンソースまたはプライベートのレポジトリから任意のPythonパッケージを使用できます。また、低レイテンシーアプリケーションのために、アプリケーションのREST APIエンドポイントにモデルを展開してモデル推論を呼び出すこともできます（オンラインエンドポイントはパブリックプレビュー中）。モデルレジストリおよび推論ソリューションにより、ユーザーはSnowflake内外でトレーニングされたあらゆるMLモデルを簡単に使用できるようになりました。組み込みモデルタイプを使用することで、またはカスタムモデルAPIを使用して前処理と後処理のパイプラインやパーティションモデルなどの他のタイプのモデルを取り込むことによって、ワークロードのニーズに応じて仮想ウェアハウスまたはSPCSでスケーラブルな分散推論を実行できます。

Diagram showing Snowflake ML, Cortex and other sources connecting to Snowflake Model Registry.

Figure 3. Bring any model for scalable inference in Snowflake.

サウジアラビアを拠点とするオンラインフードデリバリー企業、Jahez Groupは、SPCSでモデルサービングを使用し、注文から30分以内に確実に顧客に配送することで物流を最適化し、顧客満足度を最大化するモデルを生産しています。

Jahez GroupのシニアデータエンジニアであるMarwan AlShehri氏は、「Snowparkコンテナサービスにおけるモデルサービングは、モデルバージョン間のイテレーションサイクルを大幅に改善し、迅速なアップデートを可能にし、展開の遅延を減らしてくれました」と述べています。「自動スケーリングもサポートされているため、モデルの本番移行がかつてないほど簡単になりました。Snowflakeチームの驚異的なサポートにより、推定到着時刻ユースケースにおいて、リアルタイム予測のための1秒未満のオンライン推論を実現できました。これにより、配送業者への注文割り当ての改善と配送プロセスの最適化が実現し、コストの削減と効率の向上が実現しました」

モニタリングとアラート

本番環境では、トレーニングデータの不完全な理解、入力データのずれ、データ品質の問題により、モデルの挙動が時間の経過とともに変化する可能性があります。データや環境の変化は、モデルの品質に大きな影響を与えます。

SnowflakeのMLオブザーバビリティは、推論/予測ログがSnowflakeテーブルに格納されている場合に、モデルがトレーニングまたは展開された場所に関係なく、モデルのパフォーマンス、モデルスコアドリフト、特徴量ドリフトをモニタリングする機能を提供します。モニタリング結果は、PythonまたはSQL APIを使用してクエリし、モデルレジストリに紐付けられたUIから確認できます。また、カスタムしきい値を簡単にアラートに設定することもできます。

Diagram of an end to end workflow from data lake to transformation to training model to inference to observabillity.

Figure 4. End-to-end ML workflow in Snowflake ML with integrated observability.

Storio Groupは、1,100万以上の顧客を擁する、パーソナライズされた写真製品とギフトを提供するヨーロッパのリーディングカンパニーで、MLオブザーバビリティなどの統合されたMLOps機能を備えたモデルをSnowflakeで製品化しています。

Storio GroupのシニアMLエンジニアであるDennis Verheijden氏は、「Storioでは、Snowflake MLにより、コンセプトから本番稼働までわずか数か月で、拡張可能でガバナンスの行き届いたMLOpsプラットフォームを構築しました」と述べています。「新たなMLオブザーバビリティ機能と、ダイナミックテーブル、MLリネージなどのSnowflakeの既存の機能を組み合わせることで、プラットフォームでトレーニングされたモデルのオブザーバビリティを自動化できました。その結果、展開されたモデルごとに自動化されたダッシュボードを作成し、ライブモデルの評価と比較、および特徴量ドリフトの経時的変化の概要を明らかにできました。これにより、データサイエンティストはオブザーバビリティとモニタリングの実装をプラットフォームに任せながら、価値を引き出すことに集中できます」

基盤となるガバナンス

Snowflake MLのバックボーンは、Snowflake Horizonカタログとの完全な統合です。Snowflake Horizonカタログは、コンプライアンス、セキュリティ、プライバシー、コラボレーションの機能を備えた、組み込みのデータガバナンスおよびディスカバリーソリューションです。Snowflakeのすべてのデータ、特徴量、モデルは、すべてのクラウドにわたるロールベースのアクセス制御（RBAC）によって管理されます。これにより、組織は大規模にアクセスを管理し、機密アクセスを適切なビジネスロールに制限できるようになります。Snowflakeモデル管理は、この強力なデータガバナンスを基盤として構築されており、本番環境におけるモデルライフサイクルを柔軟かつセキュアに管理できます。

MLデータとアーティファクトの包括的なリネージ、アクセス履歴、ログを追跡するために、SnowflakeのデータとMLリネージはソースから最終目的地へのデータの流れを簡単に可視化するために役立ちます。リネージグラフは、Snowflakeで作成されたすべてのMLオブジェクト（特徴量、データセット、モデル）をフルサポートしており、MLパイプラインのフルトレーサビリティを実現します。これは、規制コンプライアンスと監査、MLワークロードの再現性と堅牢性の向上に役立ちます。

Figure 5. Lineage of ML assets from the Snowsight UI enables easy reproducibility, debugging and auditing.

さっそく始める

一般提供開始の最新発表により、データサイエンティストとMLエンジニアは自信を持ってSnowflake MLで本番ワークフローをスケールアウトできます。

以下のリソースを使用して、以下の機能の利用を簡単に開始できます。

開発：ノートブックの作成と簡単なMLモデルの構築についての段階的な説明を提供している、コンテナランタイムのクイックスタートの概要をご確認ください。また、初心者向けの動画もあわせてご覧いただけます。
推論：埋め込み生成のサンプルから始め、動画による概要説明をあわせてご覧ください。
モニタリングMLオブザーバビリティ入門のクイックスタートに従い、あわせてエキスパートによるデモをご覧ください。