Blog/製品 & テクノロジー/データ開発のライフサイクル全体を簡素化
JUN 02, 2026/約8分で読めます製品 & テクノロジー

データ開発のライフサイクル全体を簡素化

ほとんどのエンタープライズデータは、それに基づいてアクションを起こすシステムに到達する頃には、すでに古くなっていることがよくあります。このタイムラグが、AIエージェントが有用な回答を導き出すか、それとも高くつくミスを犯すかの分かれ目となります。エージェント型AIは、最新の情報に継続的にアクセスできて初めて、インテリジェントな意思決定を下すことができます。

より多くの組織がエージェント型AIを本番環境に導入するにつれて、データエンジニアリングチームへの要求は、リアルタイムのパイプラインやイベント駆動型アーキテクチャへとシフトしています。これにより、絶えず変化するより多くのデータソースを接続し、ガバナンスを適用する必要性が浮き彫りになっています。しかし、チームが構築を求められているものは、現在のデータプラットフォームがサポートできる範囲を超えています。

Summit 2026において、SnowflakeはAI時代におけるデータエンジニアリングチームの成功を支援するため、プラットフォームを強化しています。これには、ネイティブのApache Kafka互換ストリーミングサービスや、データの移動および移行コストを削減するAI駆動の機能など、注目すべきリリースが含まれます。

これらの改善により、データエンジニアがインフラストラクチャの管理や手動でのオーケストレーションに費やす時間が短縮されます。その結果、基盤構築に費やす時間を減らし、AIがもたらす成果により多くの時間を充てることができるようになります。また、Snowflake CoCoが共通の基盤として機能し、複雑なセットアップを対話形式のガイドへと変革します。

AIが求めるスピードでデータをストリーミング

エージェントは観察、決定、行動、学習を行い、その学習を次の意思決定にフィードバックします。各意思決定ループにより、次の応答はより正確で、よりパーソナライズされ、より実行可能なものになるはずです。このサイクルは継続的に実行されるため、そこに供給されるデータも継続的に流れる必要があります。Kafkaを運用している組織は、このサイクルが要求するストリーミングのバックボーンをすでに備えています。問題は、それを別のアナリティクスプラットフォームと並行して運用すると、2つの独立したシステムのコスト、ガバナンス、人員配置が必要になることです。しかも、実際に意思決定が行われる場所へのデータの到着は依然として遅れたままになります。

Datastream(まもなくプライベートプレビュー)は、SnowflakeのネイティブなApache Kafka互換ストリーミングサービスであり、そのような運用上のオーバーヘッドを単一のガバナンスが効いたプラットフォームに統合するように設計されています。データは、ネイティブなSnowflakeテーブルまたはオープンなApache Iceberg™テーブルとして継続的に取り込まれ、数秒でクエリ可能になります。トピックはSnowflakeのロールベースのアクセス制御(RBAC)によって保護されます。また、テーブルは分類、リネージ、マスキングポリシーなど、Horizon Catalogの全機能を継承します。データは到着した瞬間にガバナンスが適用されます。必要なストリーミングパイプラインを説明するだけで、CoCoがDatastreamの認証を処理し、Kafkaの深い専門知識がなくても数分でチームをオンボーディングします。

 

Datastreamは、KafkaインフラストラクチャをネイティブなSnowflakeサービスに置き換えたいと考えている組織のために専用に構築されています。Snowpipe Streaming High-Performance Architectureは、Kafkaコネクタを介した既存のKafkaクラスターなど、独自のアプリケーションからデータをストリーミングするチーム向けの直接取り込みAPIです。現在、金融取引所市場の運営会社であるCboe Global Marketsは、毎日1,900億行の市場データを処理し、30秒未満でクエリを実行して、トレーダーやアナリストに市場活動のリアルタイムの可視性を提供しています。Summitで発表されたSnowpipe Streamingの機能強化には、以下のものが含まれます。

  • Kafkaコネクタ 4.0(一般提供)は、テーブルあたり最大10GB/秒のサーバー側取り込みを提供し、クライアント側のリソースを最大30%1削減します。これにより、チームはコストを犠牲にすることなくスループットを拡張できます。
  • エラーログ(一般提供)は、失敗した行を完全なコンテキストとともにSQLでクエリ可能なテーブルにキャプチャします。これにより、エージェントが不適切な入力に基づいてアクションを起こす前に、チームはデータ品質の問題を検出できます。
  • 多言語SDKサポート(一般提供)により、チームはJava、Python、Node.js、RESTインターフェイスなど、使い慣れたスタックからストリーミングを行えます。
  • Elastic Channels(プライベートプレビュー)を使用すると、何千ものクライアントが共有の自動スケーリングエンドポイントを通じて、テーブルに対して毎秒ギガバイト単位のデータを同時にストリーミングできるようになります。これにより、ストリーミングパイプラインの構築と拡張にかかる開発時間を短縮できます。
  • Durable Acknowledgments(プライベートプレビュー)は、取り込みからコミットまでの間にデータが失われる可能性のある期間を排除します。ミッションクリティカルなパイプラインが、不完全なデータをエージェントに供給することはありません。

自己管理型のパイプライン

リアルタイムでデータをSnowflakeに取り込むことは、仕事の半分にすぎません。残りの半分は、その生のストリームを、アナリスト、モデル、エージェントが実際に消費できるものに変換することです。この変換レイヤーは継続的に実行され、独自の再試行とリフレッシュのロジックを処理し、専任のエンジニアが常に監視していなくても信頼性を維持する必要があります。パイプラインが自己管理型であれば、チームはより迅速に行動できます。

Summitでは、Wind Creek HospitalityのSergey Labetsik氏が、以前は30分間隔で実行されていたdbtバッチジョブをダイナミックテーブルのパイプラインに移行した事例を紹介しました。これにより、エンドツーエンドのレイテンシーが1分未満に短縮され、ゲストがフードバウチャーを獲得した瞬間に提供できるようになったことが示されました。

そして、この宣言型のアプローチは、さらに高速かつ柔軟になりました。パフォーマンスの強化(一般提供)により、一般的なダイナミックテーブルのワークロードにおいて、リフレッシュが最大2.8倍高速化されます2カスタム増分化(パブリックプレビュー)により、エンジニアは宣言的に表現できない変換に対してMERGEまたはINSERTステートメントを使用できるようになります。同時に、ダイナミックテーブルの完全な自動化も維持されます。

Figure 2: Up to 2.8x faster refresh performance  for Dynamic Tables with improvements to how Snowflake works with aggregate functions, qualify rank (SCD-1), cluster-by, joins and more.
Figure 2: Up to 2.8x faster refresh performance for Dynamic Tables with improvements to how Snowflake works with aggregate functions, qualify rank (SCD-1), cluster-by, joins and more.

DCM Projects(パブリックプレビュー)は、インフラストラクチャを宣言的に定義し、環境全体で変更をプレビューおよび展開し、すべての展開の完全な監査証跡を保持するための、単一の制御されたワークフローをチームに提供します。dbt Projects on Snowflakeは、Fusionサポート(一般提供)によってさらに高速化され、同じ理念をdbtユーザーにも拡張します。

Snowpipe Streaming、ダイナミックテーブル、dbt Projects向けのCoCoスキルは、これらのワークフロー全体でセットアップとトラブルシューティングを加速させます。これにより、エンジニアは定型コードではなくパイプラインのロジックに集中できるようになります。

データを移動せずに、ビジネスセマンティクスを備えたエンタープライズデータにアクセス

どの組織においても、最も価値の高いデータの一部は、まったく移動する必要がありません。そのようなデータは、SAP、Salesforce、Workdayなどの主要なエンタープライズプラットフォームにすでに存在しており、ビジネス上の意味、関係性、セマンティックモデルが組み込まれています。AIイニシアチブを本番環境に導入しようとするエグゼクティブにとって、その再構築コストはしばしば最大の障壁となります。

データを複製するのではなく、ゼロコピー統合により、ソースシステムのインテリジェンスを直接Snowflakeに表示します。これにより、ガバナンスが適用され、クエリ可能な状態となり、AIワークロードの確実な実行に必要なセマンティックの豊かさを備えることができます。モデルやエージェントは、コンテキストが削ぎ落とされたテーブルのレプリカではなく、元のビジネスコンテキストを保持したデータ上で動作します。

SAPSAP BDC Connect for Snowflakeを通じて一般提供され、双方向のゼロコピー統合を提供します。データエンジニアは、複雑なETLなしでAI、アナリティクス、データエンジニアリングのためにSAP ERPデータにアクセスでき、強化されたインサイトはSAPにフィードバックされて自動化されたアクションをトリガーします。Snowflakeとのネイティブなゼロコピー統合のパイオニアであるSalesforce Data 360は、強化されたコネクタエクスペリエンスを提供し、お客様がパイプラインのメンテナンスなしでデータを双方向に共有できるようにします。Workdayはプライベートプレビューとなり、人事および財務データを、ストレージレイヤーでの増分変更キャプチャを備えた外部マネージドIcebergテーブルとして表示します。

 

これら3つすべてにおいて、アーキテクチャは一貫しています。データはソースシステムに存在し、カタログリンクデータベースを通じてSnowflakeに表示され、Horizonの完全なガバナンス境界を継承します。データが可視化された瞬間から、エンドツーエンドのリネージ、アクセスポリシー、監査証跡が適用されます。さらに、CoCoスキルがライフサイクル管理を処理するため、チームは自然言語のプロンプトを通じて接続を構成および維持でき、すべてのSnowflakeユーザーがエンタープライズデータ統合にアクセスできるようになります。

残りのデータをSnowflake Openflowで接続

ゼロコピーは、ネイティブな統合パスに投資してきたエンタープライズプラットフォームで機能します。しかし、多くの重要なデータは、共有を前提として設計されていないオンプレミスのオンライントランザクション処理(OLTP)データベース、SaaSアプリケーション、レガシーシステムに依然として存在しています。

昨年提供を開始して以来、Apache NiFiを搭載したSnowflakeのマネージドデータ統合サービスであるOpenflowは、チームが断片化したコネクタスタックをシングルプラットフォームに統合するにつれて、お客様の導入が増加しています。この勢いが、Summitでの大幅なスコープ拡大を後押ししています。

Snowflakeのマネージド展開は、AWSとAzureに加えて、Google Cloud Platformでも一般提供されるようになりました。Data Connectivity Proxy(AWSでまもなく一般提供)は、Openflowをプライベートネットワークに拡張し、これまでアクセスにカスタムエンジニアリングが必要だったソースを接続します。Openflowは、構造化および非構造化データ、バッチおよびストリーミングをサポートし、オープンで拡張可能な状態を維持します。チームは、コントロールを犠牲にすることなく、カスタムコネクタを構築し、Snowflakeのマネージドプラットフォーム上で実行できます。

Snowsightのガイド付きセットアップウィザードは、組み込みのソース接続検証を使用してコネクタのインストールを段階的に説明し、セットアップからデータの取り込みまでを数分で簡単に実行できるようにします。コネクタでエラーが発生した場合、CoCoを搭載し、コネクタモニタリングダッシュボードに直接組み込まれたAI支援のトラブルシューティングがログを分析します。そして、Veeva、BigQuery、MongoDB(すべてパブリックプレビュー)など、新たに追加された需要の高いコネクタを含む、拡大するOpenflowライブラリ全体で、的を絞った修復手順を提供します。これらのコネクタは、AI支援のカスタマイズ機能を使用して展開を加速し、特化した業界データに対するより深い可視性を提供します。

 

Snowparkを使用した大規模な構築と展開

すべての変換が宣言型モデルに適合するわけではありません。Python、Java、Scala、Apache Spark™を使用してプログラムで構築するデータエンジニアやデータサイエンティストにとって、変換には複雑なファイルの解析、バッチ規模でのML推論、マルチステップのPythonワークフローが伴います。課題は、本番環境への展開にコードの記述自体よりも時間がかかる可能性があることです。Snowparkは、プロトタイプと本番環境の間の距離を縮めます。

Summitでの主なリリースには、大規模でより高速かつ効率的なスコアリングを実現する最適化されたMLバッチ推論(パブリックプレビュー)、外部データをSnowflakeに取り込むために必要な作業を軽減する拡張されたJDBCサポート付きSnowparkデータ統合API(パブリックプレビュー)、大規模で複雑なファイルETL向けのApache Spark用ファイル変換(まもなくパブリックプレビュー)、マルチファイルのPythonプロジェクトの展開を簡素化するSnowparkディレクトリインポート(一般提供)、ノートブックとMLジョブをオーケストレーションするためのビジュアルDAGパイプラインビルダー(プライベートプレビュー)、およびPythonとJavaのコードを本番環境に展開するためのコードバンドル(まもなくパブリックプレビュー)が含まれます。

Snowpark PythonおよびApache Spark向けのCoCoスキルは、これらのプログラムによるパイプラインの展開と移行の摩擦をさらに軽減し、チームがローカルのPythonまたはApache Sparkコードから本番環境対応のワークフローに移行するのを支援します。これにより、パフォーマンスが5.1倍向上し、コストが42%削減されます3

ターゲットの設定:残りはSnowflake AIMが処理

引き継いだシステムの重みほど、データチームの動きを鈍らせるものはありません。レガシーETLツール、老朽化したSQLダイアレクト、現在のエンジニアリングチームより前から存在するOracleスキーマなど、移行プロジェクトは長期化し、予算をオーバーし、問題なく実行されていたワークロードにリスクをもたらすことでよく知られています。多くの組織は、新しいスタックと並行して古いスタックを維持することになり、数年とは言わないまでも数か月にわたってコストと管理の労力が倍増します。

現在一般提供されているSnowflake AIM(AIを活用した移行)は、SnowConvert AI、Snowpark Migration Accelerator、DatometryのIPを組み合わせた、統合された移行、モダナイゼーション、仮想化プラットフォームです。Snowflake CoCoを通じて利用できるSnowflake AIM移行エージェントは、エンドツーエンドのジャーニーを通じてチームをガイドします。本番環境に手を入れる前に、何を、どの順序で、どの程度のリスクで移行する必要があるかについて、依存関係を考慮した明確な全体像を描き出します。かつては数週間から数か月かかっていたプロセスが、今ではわずかな時間で完了します。

成果のアーキテクトとしてのデータエンジニア

すべての発表に共通するパターンは同じです。エンジニアがシステムの稼働維持に費やす時間を削減し、重要な成果により多くの時間を費やせるようにすることです。コネクタのメンテナンスからパイプラインのデバッグまで、かつてエンジニアリングサイクルを消費していたタスクは、リリースごとに処理がより高速かつシンプルになっており、CoCoはそれらを結びつける役割を果たしています。

そのような環境において、データエンジニアの役割は大きくなるばかりです。その仕事は、配管作業のようなものから、AIが実際に稼働するデータ基盤の構築へと変化しています。Snowflakeは引き続き、複雑な部分を意識させないようにすることで、データチームが新たに可能になったことに集中できるよう取り組んでいきます。


  1. Snowpipe Streamingの高性能アーキテクチャを使用することで、クライアント側のリソースコストが最大30%削減されたとお客様から報告されています。詳細はこちらをご覧ください:Snowflakeにおけるストリーミングのスケーリング:次世代のSnowpipe Streamingアーキテクチャのご紹介
  2. Snowflakeのパフォーマンス向上は、Standardウェアハウスを使用した2025年5月4日時点、およびGen2を使用した2026年5月4日時点の内部変換ワークロードの測定に基づいています。
  3. 2022年11月から2025年5月にかけて、SnowparkとマネージドSparkサービスの速度とコストを比較した、お客様の本番環境でのユースケースおよびPoCに基づいています。調査結果はすべて、実データによる実際のお客様の結果を要約したものであり、ベンチマークに使用される作られたデータセットを表すものではありません。

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week