Blog/製品 & テクノロジー/AI時代のデータエンジニアリング:スマートパイプライン向けに構築された新しいSnowflakeツール
JUN 11, 2026/約1分で読めます製品 & テクノロジー

AI時代のデータエンジニアリング:スマートパイプライン向けに構築された新しいSnowflakeツール

AIにより、構築がかつてないほど容易になりました。しかし、構築が容易であることは、長期的な運用に耐え得るシステムであることと同じではありません。脆く壊れやすいシステムを使用している場合、AIは状況を改善するどころか、さらに悪化させます。だからこそ、AIを最大限に活用するために構築されたプラットフォームが必要なのです。

Snowflake Summit 2026では、お客様を今日のデータエンジニアリングの最前線へと導く新機能を発表しました。AIをワークフローに直接組み込み、データパイプラインを最初から最後までより簡単に構築できるようにしました。これらの新機能は、あらゆるタイプのデータエンジニア向けに設計されています。これらの機能は、Snowflake、オープンで相互運用可能なレイクハウス、またはその両方など、データが存在する場所で機能します。SQLやPythonを記述する場合でも、MLモデルを構築する場合でも、パイプラインの構築に必要なすべてが1か所に揃っています。Snowflakeを使用すると、スケーラブルで弾力性のあるコンピュートパフォーマンス、データが存在する場所を問わないシームレスな接続、そして一貫したビジネスコンテキストを持つセキュアで信頼できるデータのためのエンタープライズクラスのガバナンス機能を利用できます。

AIを利用した本番環境への移行の迅速化

Figure 1: Snowflake CoCo outperforms generic coding agents for data engineering tasks.

図1:Snowflake CoCoは、データエンジニアリングのタスクにおいて、一般的なコーディングエージェントを上回るパフォーマンスを発揮します。1

新しいエージェント型ワークフローにより、AIがローカル環境内で直接動作し、エンドツーエンドのソリューションを構築します。実際のデータエンジニアリング作業において、Snowflake CoCoは主要なコーディングエージェントの基準を打ち立てます。たとえば、Opus 4.7で実行されるClaude Codeと比較したベンチマークでは、CoCoはタスクを完了するために使用するトークンが51%少なく、ステップ数が8%少ないことが示されています。2

Snowflakeのデータエンジニアリング機能向けにコンテキストを認識した支援と専用のスキルを提供するCoCoは、セキュリティ境界内で動作します。さらに重要な点として、エンタープライズデータのコンテキストを理解します。データエンジニアは、Claude Opus 4.8、Claude Sonnet 4.6、GPT 5.5などの最新モデルにアクセスし、Snowsight、CoCo CLI、または新しいデスクトップアプリ(パブリックプレビュー)を通じてCoCoを使用できます。事前構築済みまたはカスタムのスキルを使用することで、Sparkパイプラインの移行Pythonコードのデプロイdbtワークフローの自動化パフォーマンスの最適化などを、すべて単一のプロンプトから実行できます。

信頼できる自律型パイプライン

あらゆる組織が、増え続けるソースから、AI-readyなデータを低レイテンシーで継続的に提供されることを望んでいます。手作業で作成されたオーケストレーションスクリプト、脆い増分ロジック、手動の展開に依存する従来の方法では、スケーリングが困難です。宣言型ワークフローでは、ユーザーが目的を定義するだけで、その実行方法はSnowflakeが処理します。

「Wolt(DoorDashグループ)では、各ワークロードを最適なエンジンで実行できる柔軟性を確保するため、Apache Icebergを標準として採用しました。データレイク内におけるデータの拡充、準備、および自動更新には、SnowflakeのダイナミックIcebergテーブルを使用しています。具体的には、目標とするデータの最新性とクエリを一度定義するだけで、その後の増分更新やオーケストレーションはすべてSnowflakeが管理します。Apache Iceberg上のダイナミックテーブルを活用することで、パイプラインの立ち上げが迅速化し、メンテナンス時間が短縮されたほか、増分パイプラインのオーバーヘッドも削減されました」

—Raimund Kämmerer氏
Wolt、スタッフデータエンジニア

より高速で柔軟なダイナミックテーブル

ダイナミックテーブルは、定義されたクエリとターゲットの鮮度に基づいてデータを自動リフレッシュすることで、何時間もの手作業を排除します。ダイナミックテーブルは、増分パイプラインにおいて優れたパフォーマンスと低レイテンシーを提供します。Summitでは、Wind Creek HospitalityのシニアデータエンジニアであるSergey Labetsik氏が、条件を満たしてから1分以内にゲストへ食事券を提供できた方法をデモンストレーションしました。dbtバッチジョブをダイナミックテーブルのパイプラインに移行することで、エンドツーエンドのレイテンシーを1分未満に短縮しました。これは、以前のジョブが実行されていた30分のスケジュールからの大幅な改善です。

Figure 2: Benchmarks showing up to 2.8x faster refresh performance on Dynamic Tables.
Figure 2: Benchmarks showing up to 2.8x faster refresh performance on Dynamic Tables.

Snowflakeは、ネイティブな宣言型ワークフローのパフォーマンス、相互運用性、表現力を向上させるための一連のアップデートを発表しました。これには以下が含まれます。

  • ダイナミックテーブルのリフレッシュパフォーマンスの向上(一般提供):集計関数、QUALIFY/RANK(SCD-1)、クラスター化操作、結合など、多くの領域でワークロードを最大2.8倍高速化します(すべてGen2ウェアハウスで測定)。
  • カスタム増分処理(パブリックプレビュー):自動スケジューリング、依存関係の追跡、レプリケーションといったダイナミックテーブルのすべての利点を維持しながら、MERGEまたはINSERTステートメントを使用して独自のリフレッシュロジックを記述することで、複雑な変換のパフォーマンスを最適化します。
  • アダプティブリフレッシュ(パブリックプレビュー):サイクルごとに最も効率的なリフレッシュ方法を自動的に決定します。チューニングは不要です。Snowflakeは、コストを最適化し、複雑なクエリでのエラーを防ぎ、手動チューニングを排除するために、増分リフレッシュと再初期化を体系的に選択します。
  • dbtでのダイナミックテーブルのマテリアライゼーション(アダプターバージョン1.11.5):dbtでマテリアライゼーションのタイプを変更するだけで、増分処理を最適化します。パイプライン内の他のdbtモデルと構成可能です。
  • DCMプロジェクト(パブリックプレビュー):Snowflake上で多様な変換パイプラインのバージョン管理、テスト、デプロイを行う方法を提供することで、インフラストラクチャを宣言的に管理します。

dbtをSnowflakeにネイティブに導入

dbt Projects on Snowflakeを使用すると、使い慣れたSnowflakeの機能を使用して、dbt Coreプロジェクトを作成、編集、テスト、実行、管理できます。dbt Projectオブジェクトを展開することで、組み込みのオブザーバビリティやCI/CD統合が得られます。また、自己管理に伴うインフラストラクチャのオーバーヘッドも解消されます。

「Aviv Groupでは、dbt Projectsの初期のアダプターとしてSnowflakeと緊密に連携し、私たちのチームが実際に構築・運用を行うためのロードマップの策定を支援しました。これにより、少数精鋭のチームでありながらより迅速に動くことが可能になり、グループ全体でのアナリティクスやAIの活用に向け、モジュール化され、ガバナンスの効いた、拡張性の高い基盤を構築できました」

—António Costa氏
Aviv Group、データエンジニアリング担当ディレクター

Summitで発表されたアップデートにより、より多くのお客様がdbt Projectsを標準として採用しています。dbt Coreの管理を置き換えるとともに、dbt Fusionやより高度なオブザーバビリティにアクセスできるようになります。

  • dbt Fusion(一般提供)が、dbt Projects on Snowflakeのバージョンとして含まれるようになりました。dbt Labsとのパートナーシップを通じて提供されるFusionには、あらゆるdbt Projectからアクセスできます。これは、多くの複雑なビルドのコンパイル時間を短縮するように設計されています。
  • 列レベルのリネージを備えた強化されたdbt DAG(一般提供)は、Snowflake Horizonカタログを使用して、ワークスペース、オブジェクトの詳細、クエリ履歴全体にわたる有向非巡回グラフ(DAG)内でスキーマレベルの情報を直接管理します。これにより、dbt Projectオブジェクトを実行するたびに、統合されたデータパイプラインのリネージビューを取得できるようになります。

スケーラブルなプログラマティックパイプライン

Pfizer は、Snowparkの活用により、データ処理速度を4倍に高速化させると同時に、総所有コスト(TCO)を57%削減しました。

すべての変換が宣言型モデルに適合するわけではありません。Python、Java、Scala、Apache Spark™を使用してプログラムで構築するデータエンジニアやデータサイエンティストにとって、変換には複雑なファイルの解析、バッチ規模でのML推論、マルチステップのPythonワークフローなどのジョブが伴います。このようなユーザーは、本番環境への展開に、コードの記述自体よりも長い時間がかかることに気づくことがよくあります。しかし、SnowparkとApache Spark™用Snowpark Connectは、プロトタイプと本番環境の間の距離を縮めるように設計されています。

NotebookとMLジョブの構築とオーケストレーション

Notebookから本番パイプラインへの移行は、常に必要以上に困難でした。新しいPipeline Builder(プライベートプレビュー)は、この状況を変えます。オーケストレーションコードをゼロから記述することなく、NotebookとMLジョブを視覚的に接続して、完全なエンドツーエンドのパイプラインを構築できるようになります。スケジューリング、インフラストラクチャ、オブジェクトの作成は自動的に処理されます。そのため、データサイエンティストやエンジニアはセットアップの時間を短縮し、実際の作業により多くの時間を費やすことができます。その結果、イテレーションが高速化し、ハンドオフが減少し、Snowflake内で簡単に監視および再現できるMLパイプラインが実現します。

Snowparkによる大規模パイプラインの構築

Snowparkは、Python、Java、Scalaの開発エクスペリエンスをSnowflakeにネイティブにもたらします。データエンジニアやデータサイエンティストは、Notebookでの記述とイテレーション、使い慣れたDataFrame APIを使用した変換の構築、ロジックのストアドプロシージャやユーザー定義関数(UDF)としてのパッケージ化と展開、そしてタスクによるこれらすべてのスケジューリングを行うことができます。コードの最初の1行から本番パイプラインに至るまで、Snowparkは開発者に完全なエンドツーエンドのワークフローを提供します。コードはデータが存在する場所で直接実行され、ガバナンス機能が組み込まれており、管理すべき外部インフラストラクチャもありません。

Snowparkは、開発者の生産性、外部接続性、MLおよび非構造化ワークロード向けのアップデートという3つの主要な領域にわたって拡張されました。強化された機能は以下のとおりです。

  • データ統合API:外部データベースからプログラムでデータを抽出します。DB-API(一般提供)は、Oracle、SQL Server、Postgres、MySQLへのPythonドライバーをサポートしています。JDBC-API(パブリックプレビュー)は、任意のJDBCソースへのサーバー側の並列読み取りを追加します。
  • 非構造化データ処理(一般提供):ai.extract()ai.parse_document()ai.transcribe()などのAI関数と組み合わせたsession.read.file()を使用して、ウェアハウス規模でファイル(画像、PDF、音声)を読み取り、解析、強化します。
  • アーティファクトリポジトリ(近日パブリックプレビュー):UDF、ストアドプロシージャ、Notebook向けに、お客様がホストするリポジトリ(Nexus、JFrog)からPythonパッケージを取得します。Private Linkもサポートしています。
  • スケーラブルなMLバッチ推論(プライベートプレビュー):@udf_init_onceを使用してモデルを一度ロードし、ワーカー間で共有することで、標準ウェアハウスでのメモリ使用量を削減し、パフォーマンスを向上させます。
  • PythonおよびJava展開用のコードバンドル(近日パブリックプレビュー):DCM Projectsとシームレスに連携し、SnowparkおよびSnowpark Connectのコードをパッケージ化して、依存するインフラストラクチャとともに信頼性の高い自動展開を実現します。これらを組み合わせることで、ソフトウェアチームが長年持っていた展開に対する自信を、データエンジニアリングチームにも提供します。

 

Snowflakeを活用することで、ローカルのPythonやApache Sparkのコードから本番環境に対応したワークフローへと移行でき、パフォーマンスは平均5.1倍高速化し、コストは平均42%削減されます。[3]

Snowpark ConnectによるApache Sparkパイプラインのモダナイゼーション

データプラットフォームのアップグレードは、すべてをゼロから再構築することを意味するべきではありません。Snowpark Connectは、チームに実用的なオンランプを提供します。完全に書き直すことなく、既存のSparkベースのパイプラインをSnowflakeのモダンなマネージドインフラストラクチャに移行できます。エンジニアは、老朽化した高価なSparkクラスターから脱却し、今日のデータ規模に合わせて構築されたプラットフォームに移行できます。このプラットフォームは、ネイティブなガバナンス、エラスティックなコンピュート、Snowflakeの完全なエコシステムへのシームレスなアクセスを備えています。これは、チームの現状に合わせたモダナイゼーションであり、過去の運用上のオーバーヘッドを排除します。

昨年のSnowpark Connectのリリース以来、Snowflakeは以下を含む多数のアップデートに注力してきました。

  • コード変更なしで本番環境への展開を可能にするsnowpark-submit CLIを備えた、Scala 2.12/2.13およびJava 11/17向けのSpark ScalaおよびJavaクライアント
  • パーミッシブモード、複雑なデータ型、スキーマエボリューション、および大規模な圧縮ファイルの並列読み取りを備えたブロンズレイヤーのファイル処理
  • Jupyter、Airflow、または外部ソースからのSparkジョブについて、詳細情報(ステータス、期間、リソース、クエリ、ログ)とともに発見、診断、およびユーザーへのアラートを支援する統合されたオブザーバビリティ

セマンティックコンテキストのパイプラインへの統合

過去10年間、ビジネス定義はパイプラインの外部に存在していました。メトリクスはBIツールで定義され、特徴量はMLストアで定義され、各チームが独自のバージョンの真実を持っていました。セマンティックビューにより、その状況は変わりつつあります。データエンジニアは、パイプラインに直接意味を追加できるようになりました。Snowflake Semantic View dbt Packageにより、これをdbtワークフローに導入します。チームは標準のDDL構文を使用して、dbtモデルファイル内でセマンティックレイヤーを直接定義します。CoCoは、その定義の作成を支援できます。dbt buildを実行すると、Snowflake内のセマンティックビューがマテリアライズまたは更新され、パイプラインの他の部分と同期された状態が保たれます。Horizon Contextはこれをさらに推し進め、データにアクセスするすべてのAIエージェント、BIツール、アプリケーションで、これらの定義を自動的に利用できるようにします。

データエンジニアリングの新しい時代

組織的な問題は、単に人を雇うだけでは解決できないことは長年知られています。これはAIの活用においても同様であることがわかっています。データエンジニアがAIを使用して、脆弱なレガシープラットフォーム上でソリューションを提供する場合、技術的負債は解消されるどころか、むしろ加速します。その結果生じるのは、破損するパイプライン、維持が困難なインフラストラクチャ、ビジネスのペースに追いつけないデータプロダクトです。この新しいAI時代では、開発スピードが基盤の品質を置き去りにしてしまう危険性があります。

Snowflakeは、データエンジニアリング専用に構築されたエージェント型のコーディングエクスペリエンスを、AIワークロードが要求するガバナンスの効いたプラットフォームと連動させて提供します。オープンなレイクハウスアーキテクチャの採用、Sparkワークロードの移行、大規模なML推論パイプラインの構築、まったく新しいデータプラットフォームの立ち上げのいずれのケースでも、Snowflakeはすべてのデータエンジニアリングペルソナにツールを提供します。これにより、迅速な開発、自信を持ったリリースが可能になり、インフラストラクチャの管理に費やす時間を削減できます。データエンジニアリングのエージェント時代が到来しました。

まずは、無料のeBook『Build Pipelines for AI:An Essential Guide to Smarter Data Engineering』をダウンロードして、Snowflake Summit 2026での魅力的なリリースや発表の詳細をご確認ください。


  1. Claude Codeと比較したADE Benchの結果に基づきます。
  2. 注:効率スコアは、実際のビジネスにおけるアナリティクスおよびデータエンジニアリングのタスクでAIエージェントを評価するためにdbtが作成したフレームワークであるADE-benchを使用した、内部テストに基づきます。
  3. 2022年11月から2026年5月までの間にSnowparkのスピードとコストを比較した、お客様の本番環境でのユースケースとPoC(概念実証)に基づきます。実際のスピードとコストの改善は、お客様の特定の環境とワークロードのパターンによって異なります。

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week