注:本記事は(2021年8月2日)に公開された(Major Brands Democratize Data with Snowpark Accelerated)を翻訳して公開したものです。

今年前半に開催されたSnowflake Summit 2021で、当社はSnowparkをご利用のパートナーに向けた新プログラムSnowpark Acceleratedについて発表しました。これは技術エキスパートへのアクセスやSnowflakeカスタマーとのさらなる接点を提供するものです。深く統合されたDataFrame形式のプログラミングを、開発者が好む言語にもたらすこの新しい開発者エクスペリエンスの力を活用して、パートナーの皆様がどのような成果を上げているかを見ることは、私たちとしても非常に嬉しいものです。

Snowpark API(パブリックプレビュー版)とJava UDF(パブリックプレビュー版)により、データエンジニア、データサイエンティスト、開発者は、好みの開発言語とフレームワークを使用して、Snowflakeとそのパートナーが提供する強力なプラットフォーム機能とSnowflakeデータクラウドのメリットを得ることができるようになりました。

8月1日時点で、Snowpark Acceleratedに登録しているパートナーの数は50を超えています。そこで、ほんの一部ですが、パートナーが送り出した新しいイノベーションや機能をご紹介します。これには、モデルスコアリングの規模をより迅速に調整する機能、複雑な機械学習タスクをより簡単に実行する機能、データプライバシーおよびセキュリティ要件をより効率的に遵守する機能などが含まれ、これらすべてをSnowflake内で直接実行できます。

それでは、Snowpark Acceleratedパートナーがデータサイエンス、データエンジニアリング、データガバナンス、およびセキュリティの分野でデータの民主化を実現した驚きの方法をご覧ください。

データサイエンス

DataRobot、Dataiku、H2Oは、Snowparkを利用して、Sparkクラスタを別途セットアップしたり管理したりする必要なく、モデルスコアリングの規模を調整しています。Snowparkがあれば、すべてSnowflake内で実行できます。

DataRobot

DataRobot社のスコアリングコードを生成できる非時系列モデルが、今やSnowflake Java UDFの内部に直接デプロイできるようになりました。このデプロイオプションにより、Snowflake外で実行していた従来のモデルスコアリング方法よりもスコアリング速度が上がります。

Dataiku

SnowparkとJava UDFが登場する以前、一部のデータ準備関数や予測モデルスコアリングは、SQLで表現できないため、Dataikuや他のエンジン内で実行する必要がありました。つまり、Snowflakeからデータを出し入れする必要があり、パフォーマンスに影響が出ていました。今ではDataikuパイプラインを完全にSnowflake内で運用できるため、Snowflakeのパフォーマンス性能とガバナンス性能を最大限に活用することができます。

H2O 

Snowparkでは、Snowflake内のデータを、ScalaコードやJavaコードを使用してDataFrameとして利用することができます。また、それらはSnowflake環境内で実行できます。データサイエンティストは、Snowflakeプラットフォームのパワーと拡張性を活用しながら、H2O.aiツールやモデルを使用できます。ある使用事例をご紹介しますと、H2Oはローンの不履行を予測するデータセットを、Snowflakeデータマーケットプレイスから取得したLendingClubデータや人口統計データセットと組み合わせ、モデルの正確性を向上させつつ、Snowflake環境内で大規模にスコアリングしています。H2Oは自社のデータやSnowflakeデータマーケットプレイスから取得したサードパーティデータを使用してモデルをトレーニングした後で、そのモデルをデータが格納されている場所にインポートできたことにより、デプロイメントの道筋がより簡単になりました。

データエンジニアリング

Rivery、LTI、およびphDataは、Snowparkを使用することで、自社のカスタマーに新たなデータインサイトとより良いカスタマーエクスペリエンスを提供できるようになりました。さらに、機械学習タスクのコストと複雑さの低減にも成功しています。

Rivery

Snowparkを利用することで、カスタマーはSnowflake上のSQL、Scala、Java UDFを、直接Rivery内で、すべて並列に実行でき、データの新たな次元を開くことができます。これによりカスタマーは自社のデータを確実に制御しながら、より価値のあるインサイトを抽出できます。RiveryとSnowparkの統合により、データワークフローが一元化され、不要なデータシステムが排除されたことで、データ運用がシンプルになりました。さらにカスタマーは、自動データワークフローにSnowparkの機能を組み込むこともできます。ある使用事例では、カスタマーエクスペリエンスデータを分析して、アラートと通知をSlackのカスタマーサービスチームに送信するスケジュールを設定し、問題に対応できるようにしました。 

LTI

SnowparkとJava UDFにより、LTI Mosaicは、SnowflakeのDataOps(DevOpsの原則をデータに応用したもの)、MLOps(機械学習オペレーション)、およびModelOps(アナリティクスのライフサイクル全体でモデルをすばやく反復的に運用する全体論的な手法)といった機能をシンプル化しながら増幅させることができました。SnowparkとJava UDFの活用により、Mosaicのカスタマーは機械学習モデルをデプロイし、モデル推論をプッシュし、コードを書いてSnowflakeにプッシュダウンして処理させることができます。

phData

phDataのカスタマーは、自身のSnowflakeデータ上で、NLPまたはイメージ認識といった機械学習タスクを実行することを希望しています。従来、これは非常に複雑なプロセスで、SQLのみでは不可能でした。今では、SnowparkとJava UDFを使用することで、複雑なパイプラインをすべてSnowflake内で管理できるため、コストと複雑さが大幅に低減しました。

データガバナンスとセキュリティ

Talend社とProtegrity社は、Snowflakeを使用することで、カスタマーによるデータ品質、プライバシー、セキュリティ要件の簡単かつ効率的な向上を実現しました。

Talend

SnowflakeとTalendのカスタマーは、Talend Trust Assessorを使用することで、自社のすべてのSnowflakeデータの健全性チェックを、クリックのみで瞬時に実行できるようになりました。Snowparkがあれば、健全性チェックをSnowflake内で直接実行でき、サンプリングやデータの移動を行う必要がないため、プライバシー要件やデータ主権要件に準拠できます。

Snowparkをさらに詳しく知りたい方、または使ってみたい方は、当社のプログラムサイトにアクセスして今すぐ登録してください。

Tarik Dwiek – Snowflakeテクノロジーアライアンス部門統括者