注:本記事は(2022年1月27日)に公開された(Snowpark Is Now Generally Available)を翻訳して公開したものです。

本日ここに、AWS上のScalaやJava UDF向けSnowpark APIの一般提供を開始することを発表いたします。Snowparkは、ユーザーが選択した言語での密な統合言語データプログラマビリティを提供する、Snowflake用開発者フレームワークです。

Snowparkの根幹を成しているのは拡張性です。データエンジニアやデータサイエンティスト、その他の開発者が、Scala、Python(現在非公開プレビュー中)、Javaなど各自が好むプログラミング言語やツール、DataFramesのような使い慣れたプログラミング構造を使用し、より効率的かつ効果的にデータを使用できるように設計されています。さらにSnowparkは、データが保存されている場所、つまり、拡張性が高く安全なSnowflakeのコンピュートエンジン内で作業できるように構築されています。

私たちの目標は、非効率なデータパイプラインを排除し、全員が同一のデータを使用できるようにするためだけに使用されるようなプロセスやタスクを最適化することでした。Snowparkでは最終的に、さまざまなスキルセットのチームによる協働が可能となり、より迅速かつ簡単に同一データで作業や処理を行えるようになったほか、データセキュリティとガバナンスを最優先事項とすることも実現しました。また、より幅広い開発者、データエンジニア、データサイエンティストのコミュニティに対し、データアクセスやデータ操作を開放することにもなりました。

2021年6月のSnowparkのプレビュー開始以降、多くのSnowflakeの顧客やパートナーが多様な重要タスクに対するソリューションを構築するためにSnowparkを使用してきました。PII検出に活用する顧客もいれば、ロード中にデータ形式を変換したり、グラフ探索を実施する顧客もいます。多くの企業はSnowparkを使用し、構築した機械学習モデルをSnowflakeに落とし込むことで、運用の容易化を図っています。そして、当社のパートナーもSnowpark Acceleratedプログラムを通してこの流れに乗ろうとしています。

今回の一般提供はまだ始まりにすぎません。Snowflakeは、Snowparkの公開プレビュー中に早期導入ユーザーを初めて招待して以来サポートを拡張し続けてきました。Java UDTFやGoogleおよびMicrosoftクラウド双方へのサポートを公開プレビュー版に追加しました。さらに、近日提供予定の限定プレビュー版には、ストアドプロシージャ、ログ記録サポート、非構造化ファイル処理のサポートを始めとする多数の機能が含まれています。もちろんパイプでPythonを使用することもできます(現在は非公開プレビュー中)。

IQVIAのITアーキテクトディレクターであるMohit Sauhta氏は次のように語っています。「IQVIAはデータとサービスを連携しインテリジェントな意思決定を推進することで、ヘルスケア&ライフサイエンス業界を強化しています。Snowflakeの拡張性やセキュリティは、当社の要件にまさに合致しており、SnowparkのDataFrame APIやカスタムJavaコードへの対応はデータトランスフォーメーションにおいて非常に強力です。Snowparkにより当社のデータエンジニアリングパイプラインの近代化や統合が実現し、Sparkから簡単に移行できたことでアーキテクチャが簡素化され、データエンジニアリングチームは、基盤となるプラットフォームの変更にかかわらず、自身が選択する開発インターフェースである、遅延評価を備えたDataFrame APIで引き続き作業することができています。」

Sauhta氏は次のように続けています。「顧客にとってはインサイト創出までの時間が短縮され、当社にとってはプロセスを容易化し、管理コストを削減できるという、まさにウィン・ウィンの関係です。これらの機能が一般提供され、今後、Snowparkでより多くのユースケースが利用可能となることに期待しています。」

データクラウドで新たに利用可能となったSnowparkへようこそ。