ユースケース
Snowflakeデータパイプライン
数日ではなく数分でパイプラインを構築、展開、スケーリングできます。統合されたデータエンジニアリングワークフローにより、負荷の高い作業を自動化できるため、インフラストラクチャ管理に煩わされることなく高品質なデータの提供に集中できます。





概要
ZeroOpsによるパイプライン開発でワークフローをモダナイズ
優れたパフォーマンスとオープンソースの柔軟性を両立するSnowflakeなら、アーキテクチャ上の余分な負担を増やすことなく、データにソフトウェアエンジニアリングの規律を容易に適用できます。
単一の統合エンジンでパイプライン開発を標準化
Snowpark、ダイナミックテーブル、ネイティブのdbtプロジェクトを含む、統合された環境でデータパイプラインを構築、テスト、展開できます。断片化したツールの管理をやめ、統合されたエンタープライズグレードのワークフローにより、Snowflake上で直接データエンジニアリングをスケーリングしましょう。
運用オーバーヘッドとパフォーマンスのボトルネックを排除
マネージドコンピュートを活用すれば、インフラストラクチャのチューニングは不要です。代わりに、高性能で高度に最適化されたサーバーレスのデータ変換とオーケストレーション機能を活用できます。
AIをあなたとチームのパートナーとして活用
データエンジニアリング向けに設計されたSnowflake Workspacesの専用IDEを活用して開発を加速できます。このIDEには、統合された知識豊富なコーディングアシスタント、Cortex Codeが含まれています。
メリット
SnowflakeでSQLとPythonを使用した 構築とオーケストレーション
高度な宣言型ワークフロー
単なるデータ移動にとどまらない、表現力豊かなパイプラインを構築
ダイナミックテーブルを使用することで、手動オーケストレーションを不要にし、リソース消費を抑えながら効率的な増分更新を実現できます。
dbtプロジェクトを介して、dbt Projects on Snowflakeで直接データ変換を構築、テスト、展開、監視できます。
データエンジニアリングに特化したIDE、Workspacesで開発を加速できます。
- インテリジェントなコーディングアシスタントであるCortex Codeを使用して、データエンジニアリングを強化します。


Apache SparkTMとPythonのパイプラインを高速化
エンタープライズ規模で高パフォーマンスなパイプラインを実現
Snowpark Connectを使用すると、Java、Scala、Pythonをサポートしながら、Snowflakeエンジン上で既存のApache Sparkコードを実行できます。
SnowparkがネイティブにサポートするPythonを活用することで、多様なデータソースへシームレスにアクセスできます。DB-APIを経由して新たに対応した外部データベースや、RowtagリーダーによるXMLファイル対応などの新機能により、より幅広いデータソースとの統合が可能になります。
運用オーバーヘッドなしに、パフォーマンスの高速化とコスト削減を実現できます。
自動化機能の追加
データパイプラインのオーケストレーション
- 自動化されたオーケストレーションを変換ワークフローに組み込み、運用オーバーヘッドなしに一貫した実行を可能にする、信頼性とスケーラビリティに優れたフレームワークを提供します。
- 最終状態を定義すると、Snowflakeはダイナミックテーブルを使用してリフレッシュを自動的に管理します。
- Snowflakeタスクを使用して、スケジュールまたは定義されたトリガーに基づいてコマンドを実行します。
- タスクを連鎖させて有向非巡回グラフ(DAG)を定義し、より複雑な定期処理をサポートします。
- サーバーレスタスクでタスク実行を最適化します。


「私たちはビジネスの構築方法よりもビジネスの内容の方に注力することができるようになりました」
—Dan Shah氏
データサイエンス担当マネージャー
- 1週間移行後に130個のダイナミックテーブルが実稼働するまでにかかった期間
- 65%DatabricksからSnowflakeに切り替えたことによるコスト削減率

関連リソース
構築とオーケストレーションを開始 Snowflakeでのパイプライン
今すぐ開始する
Snowflakeを実際に使ってみる
30日間の無料トライアルを開始する
- 400ドルの無料クレジットで開始
- AIデータクラウドへの迅速なアクセス
- 最も重要なデータワークロードを実現
データパイプライン
よくある 質問
Snowflakeでのデータパイプラインの効果的な構築と管理についてご紹介します。サポートされている種類、効率的なデータ処理技術などをご確認ください。
データパイプラインとは、ストレージや分析のために、起点(ソースシステム)から宛先(データウェアハウスやデータレイクなど)へのデータの移動と変換を自動化する一連のプロセスとツールを指します。本質的には、生データを取り込んで処理し、インサイト、AI、アプリ、その他のダウンストリームのユースケースに利用する方法です。
一般的なデータパイプラインの種類は、次のとおりです。
バッチパイプライン:スケジュールされた間隔で大量のデータを処理します。
ストリーミングパイプライン:データは、生成と同時にリアルタイムまたはニアリアルタイムで処理されます。
マイクロバッチパイプライン:データを少量の頻繁なバッチで処理するハイブリッドアプローチです。バッチとストリーミングの中間的なアプローチです。
はい、Snowflakeは、データエンジニアのペルソナや要件に合わせた多様な機能で、これらのアプローチをサポートしています。
Snowflakeは、変換とデータオーケストレーションの両方に対応する機能をいくつか提供しています。Snowflakeのダイナミックテーブルは、変換のリフレッシュスケジュールを自動化できます。Snowflakeタスクをタスクグラフ(DAG)に連鎖させることで、SQLやPythonの変換をオーケストレーションできます。dbtのようなツールは変換に焦点を当てていますが、タスクや外部オーケストレーター(e.g.Apache Airflow)と統合することで、パイプライン全体のオーケストレーションを実現します。
Snowflakeタスクを使用して、Snowflakeでネイティブに依存関係を管理できます。タスクグラフを作成して実行順序を定義することで、後続のステップは前提条件となるタスクが正常に完了した後にのみ実行されるようにします。ダイナミックテーブルを使用する場合、依存関係はダイナミックテーブルによって自動的に管理されます。
いいえ、カスタムデータパイプラインをゼロから構築する必要は必ずしもありません。データエンジニアは、データパイプラインのさまざまな作業を異なる手法で実行できます。データのロードと取り込みを例に挙げます。必要に応じて、データ統合ツール(Snowflake Openflowなど)、Snowflakeマーケットプレイス経由でのデータ共有への直接アクセス、Snowflakeセキュアデータシェアリング(データがすでに別のSnowflakeアカウント内にある場合)などの選択肢が考えられます。
いいえ、変換作業を行う前に、Snowflakeの内部マネージドストレージにデータを取り込む必要は必ずしもありません。Snowflakeは、レイクハウスを含むさまざまなアーキテクチャをサポートしているため、Snowflakeを使用して、外部テーブルまたはApache Icebergテーブルを使用してApache Icebergテーブルを活用し、外部クラウドストレージ内のデータの変換を実行できます。これにより、データをSnowflakeのマネージドストレージに常に取り込むことなく、その場で作業できます。


