SNOWFLAKE WORLD TOUR TOKYO (9月10日 - 11日 東京開催)

今なら、一般登録に先駆けてセッション登録ができる早期登録者特典が得られます。

機能

Snowflake上でのApache Sparkの活用

Apache Spark™用Snowpark Connectを使用して、運用のオーバーヘッドなしに、より高速なパフォーマンスとコストの削減を両立できます。

デモを見る
time icon

実稼働スケールでのワークロード実行の高速化

スケール専用に設計されたベクトル化エンジンにより、複雑なSparkワークロードをマネージドSparkプロバイダーと比較して5.1倍# 高速に実行できます。

cost savings icon

総保有コストの削減

フルマネージド環境により、クラスターのプロビジョニングをスキップしてデータ移動コストを回避できます。

consolidate icon

運用オーバーヘッドを削減

お客様は、Sparkクラスターのプロビジョニングとチューニングに伴う負担から解放されます。インフラストラクチャ管理に追われるのではなく、高付加価値なデータプロダクトの構築にエンジニアリングリソースを集中できます。

メリット

Apache Spark™コードでSnowflakeの機能を最大限に活用

Sparkをネイティブに実行

Snowpark ConnectでSparkパイプラインを加速

  • Spark DataFrames、SQL、UDFをSnowflakeのベクトル化されたエンジン上で直接実行できます。 外部のSparkクラスターのプロビジョニングや管理は不要です。 
  • Snowpark Connectは、オープンソースのSpark Connectプロトコルを使用して、Snowflake内でワークロードをネイティブに実行します。これにより、既存のSparkコードを維持しながら、複雑なETLタスクにおいて平均42%のコスト削減と5.1倍#高速なパフォーマンスを実現します。

snowpark connect diagram
snowflake spark interaction diagram

既存のワークロードの連携

外部Sparkクラスターの接続

 

お客様のワークロードに外部のSpark環境や既存のAPI(RDDやMLlibなど)が必要な場合、Apache Spark用Snowpark Connectが高性能なブリッジを提供します。データ転送においても、Snowflakeのセキュリティとガバナンスの制御が引き続き適用されます。

既存ツールの活用

使い慣れた環境での作業

  • Jupyter NotebookVS Code、Apache Airflow™などといったお好みの環境からお客様のSparkクライアントを接続し、Sparkジョブを実行できます。 

  • ワークロードは、 Snowflake Notebook 内で直接実行することも、Spark Submitを介して実行することもできます。
snowpark connect for apache spark diagram
enterprise lakehouse

データの場所を問わずSparkを実行

お客様のデータが存在する場所を問わずSparkを実行

  • SnowflakeのネイティブテーブルやApache Iceberg™などの相互運用可能なレイクハウス形式でSparkコードを実行できます。
  • 高コストなデータの移動やエグレス料金を回避できます。

  • データライフサイクル全体にわたって、一度の設定で統一されたガバナンス制御を適用できます。

Apache Spark™用Snowpark Connectパートナー

グローバル

北米

accenture logo
CAPGEMINI logo
Deloitte logo
Infosys logo
BlueCloud Logo
Infostrux logo
Kipi.ai logo
LTI Mindtree Logo
phData logo
Slalom logo
Tredence logo

Apache Spark用Snowpark Connect

よくある 質問

Apache Spark用Snowpark Connectに関するよくある質問や、Snowflake上でSparkワークロードを実行する際にどのように役立つかについての回答をご確認ください。

Snowpark Connectを利用することで、PySparkなどのSparkクライアントを使用してSnowflakeに接続し、最新のApache Spark DataFrame、Spark SQL、UDFコードをSnowflakeエンジンで直接実行できます。これにより、個別のSpark環境を維持管理するオーバーヘッドが軽減されます。

Snowpark Connectは、クエリプッシュダウンを介してSnowflakeエンジン内ですべての操作を実行するマネージドコンピューティングサービスです。これにより、個別のSparkクラスターのプロビジョニングやデータの移動、それに伴うエグレスおよびイングレスコストが不要になります。一方、Sparkコネクタは個別のSparkクラスターを必要とし、データの転送が発生するだけでなく、プッシュダウンできるのはSpark SQL操作の一部に限定されます。

Snowpark ConnectはCSV、JSON、Parquetなどの一般的なファイル形式の読み書きが可能です。Snowflakeネイティブテーブル内のデータだけでなく、Snowflake管理および外部管理のApache Iceberg™テーブルを介したオープンレイクハウス内のデータもサポートしています。

Snowpark Connectは、クライアントと実行エンジンを分離するオープンソースのSpark Connectプロトコルを基盤として構築されています。Snowpark Connectは、軽量のSpark Connectサーバーを使用してSparkの論理計画を解析し、ワークロード全体をSnowflakeベクトル化エンジンにプッシュダウンして実行します。これにより、ユーザーがSparkクラスターを運用する必要はなくなり、すべてのコンピュートがSnowflake内で行われるようになります。

DataFrame操作を中心としたほとんどのコードは、セッションの接続先をSnowflakeに変更するだけで動作するはずです。どのような規模のコードベースであっても、Snowpark移行アクセラレーター(SMA)を使用して互換性の詳細を確認できます。

SparkワークロードをSnowflakeに移行したお客様は、平均で5.1倍のパフォーマンス高速化と42%のコスト削減を実現しています。