AI-readyなレイクハウスの構築

データエンジニアリングチームは、かつてないプレッシャーにさらされています。生成AIと高度なアナリティクスのためのデータファウンデーションの構築が職務ですが、調査によると、AIプロジェクトの75%が本番環境に到達していません。この理由は何でしょうか?
問題はAIモデルではなく、AIモデルが依存する断片化されたデータ基盤です。
今日のデータエンジニアは多くの場合、問題にその場で対処する役割を強いられています。イノベーションではなくインフラストラクチャの定期的なメンテナンス作業に貴重な時間を費やしています。硬直した複雑なデータパイプラインをつなぎ合わせ、分断された依存関係を修正し、サイロ化したインフラストラクチャを常に管理しています。
私たちは、オープンテーブルフォーマット向けの高度なデータエンジニアリング機能が、Snowflakeで一般提供(GA)されることを発表でき、大変嬉しく思います。これにより、あらゆる組織がAI時代に対応した、ガバナンスの効いた、統合された高パフォーマンスのレイクハウスを構築できるようになります。
こうした改善により、柔軟性とシンプルさ、オープン性とセキュリティ、ロックインと相互運用性といった、過去の選択肢に悩まされることがなくなりました。つまり、以下の機能で実現します。
カタログ連携データベース:単一のSnowflake開発環境から、AWS Glue、Databricks Unity、Microsoft OneLakeなど、任意のIceberg RESTカタログにフェデレーションして、新鮮なデータを自動的に発見してアクセスできます。これにより、レイクハウスのゼロETLの約束を実現するとともに、Snowflakeの世界トップクラスのパフォーマンスエンジンによる、かつてない相互運用性と処理能力を提供します。
Apache Iceberg™テーブル(GA)への書き込み:Icebergレストカタログに関係なく、すべてのIcebergテーブルでフルデータエンジニアリングがサポートされるようになりました。ユーザーは、Snowflakeの統合されたフルマネージドプラットフォーム上で、ディスカバリーだけでなく、取り込み、変換、モデリングの操作も一元化できます。その結果、イノベーションにより多くの時間を費やし、インフラストラクチャの管理に費やす時間を削減できます。
自動Iceberg最適化の活用:運用オーバーヘッドのないオープンフォーマットの柔軟性が実現します。Snowflakeでは、Icebergエコシステム全体にわたってファイルサイズとパーティション(GA中)を最適化し、カタログやエンジンに関係なくパフォーマンスを最適化できるようになりました。さらに、スナップショットの期限切れ、ファイルの圧縮、マニフェストの書き換えなど、テーブルのメンテナンス操作(プライベートプレビュー中)を簡単に自動化して、レイクハウス全体の優れたクエリパフォーマンスとシンプルな管理を実現できます。
オープンフォーマット(GA)でのデータアセットの共有:SnowflakeのセキュアなゼロETLデータ共有は、カタログに関係なくIcebergテーブルとDelta Lakeテーブルの両方をサポートするようになりました。つまり、複数のリージョンやクラウドにまたがるオープンテーブルフォーマットを、データ顧客のためにセキュリティポリシーとガバナンスポリシーを維持したまま、簡単かつセキュアに共有できます。
これらのソリューションは、Snowflakeのデータエンジニアリングとコラボレーションのソリューションスイートを取り込みからビジネスインパクトまでフル活用し、より多くの組織がデータの複雑性を克服してAIの可能性を実現できるようにします。
データの複雑性の克服:新しいデータエンジニアリングパラダイム
真のAI-readyデータレイクハウスへの移行には、モダンデータチームが抱える3つの主要な摩擦ポイントを取り除く(硬直した断片的なデータアーキテクチャをつなぎ合わせること、分断された複雑なパイプラインを修正すること、サイロ間で一貫性のないガバナンスを管理すること)必要があります。
Snowflakeの新しいGA機能と既存の機能により、データエンジニアリングチームがAIのための信頼できるデータの提供に集中できるようになりました。
データの場所に関係なくセキュアに接続
レイクハウスの将来性は、オープンでマルチフォーマットの柔軟性にあります。しかし、そのビジョンは多くの場合、さまざまなチーム、リージョン、クラウドにまたがるメタデータとカタログの管理の複雑性が原因で実現できません。この課題を克服するために、Snowflakeは、コネクテッドでガバナンスの確保された統合レイクハウスのビジョンを実現しています。
カタログにリンクされたデータベースで既存データの断片化を克服し、新しいデータを経済的に接続:
経済性の向上による新しいデータの接続:データ従量課金のシンプルで予測可能な料金モデルにより、Business CriticalエディションまたはVirtual Private Snowflakeエディションのお客様は、取り込みコストを50%以上削減できました(近日中に全面的なロールアウトを完了予定)。 SnowpipeとSnowpipe Streaming APIを併用することで、任意のレイテンシーでデータを取り込むことができます。また、ローコードのマネージド統合サービスであるSnowflake Openflowを使用して、どこからでもマルチモーダルデータを接続できます。
Icebergエコシステムの拡大:シンプルなメタデータ変換機能を備えたDelta DirectファイルやParquetファイルを使用して、Deltaテーブル内のデータにアクセスし、データ資産全体を真に統合できます。
AI-readyデータの活用:AIのためのコネクテッドでキュレーションされたコンテキストを継続して実現することで、AI-readyなデータの準備が整います。Document AI、Cortex AISQL、Cortexナレッジベースを使用して、Snowflake Cortex AIで非構造化データの準備を自動化したり、信頼できるサードパーティソースからクエリ可能なデータを追加したりできます。
つまり、Icebergの広範なエコシステムサポートが提供する柔軟性と選択肢を維持しながら、場所やカタログに関係なく、断片化したデータ資産を、ガバナンスの確保された一元管理されたダッシュボードに統合できます。
フルマネージドインフラストラクチャによるパイプラインの合理化
データエンジニアが最大の時間を浪費するのは、依存関係グラフの手動管理とプロシージャでのデータ変換コードデバッグです。低レイテンシーのデータパイプラインを構築するには、より優れた方法が必要です。
Snowflakeは、パイプライン管理の複雑性を軽減するように設計された以下の機能を通じて、Snowflake AIデータクラウドのパワーをお客様のオープンフォーマットのデータにもたらします。
Icebergにダイナミックテーブルを使用する:宣言型SQLフレームワークを活用することで、データ変換の結果を定義するだけで、オーケストレーション、依存関係管理、スケジューリング、増分リフレッシュがSnowflakeによって自動的に実行されます。その結果、フルマネージドのパイプラインが実現し、開発時間が解放されて効率的で安定したデータの提供が可能になります。
既存のパイプラインの加速:広範なSparkコードベースを実行しているチームでは、Snowpark Connect for Apache Spark™により、Snowflakeの高パフォーマンスエンジンでSparkワークロードを直接実行できるようになり、多くの場合、価格対性能比が大幅に改善します。お客様は、Snowparkによって従来のSpark環境と比較して5.6倍高速なパフォーマンスと41%のコスト削減を実現しています1。
作業効率:SQL、Python、Javaをサポートしているため、任意の言語を使用して開発作業の柔軟性を維持できます。Snowflake CLI、dbtプロジェクト、Git統合などのツールを使用して、CI/CDパイプラインのオブジェクト管理を自動化し、チームが最適な効率で実稼働パイプラインを構築できるようにします。
AIガバナンス:信頼できるデータプロダクトの提供
AI/MLモデルは、ガバナンスの確保された高品質なデータに基づいてバイアスを回避し、信頼性の高い出力を生成します。つまり、ガバナンス、データ品質、ディスカバリーの機能が組み込まれている必要があります。これは、データが複数のリージョン、クラウド、ツールに存在するレイクハウスアーキテクチャでは特に困難です。Snowflake Horizonカタログは、データの保管場所に関係なく統合された管理機能を提供し、AIのガバナンスを一元化します。
Horizonカタログは、監査可能かつセキュアで、最も重要なAI/MLイニシアチブに対応できるデータファウンデーションの構築を支援します。
Horizonカタログによる一元化されたインテリジェントなガバナンス:Snowflake Horizonカタログは、カタログの種類に関係なく、Icebergテーブルを含むすべてのデータオブジェクト、リージョン、クラウドにわたってポリシーを適用する、インテリジェントな単一のガバナンスレイヤーを提供します。
分離されたデータアクセス:IDから機能を分離するロールベースのアクセス制御、粒度の高いアクセス制御(FGAC)、属性ベースのアクセス制御(ABAC)など、すぐに使えるセキュリティ機能を実装して、精度の高いリアルタイムのアクセスポリシーを作成できます。機密データを分離し、ソースに関係なく、許可されたユーザーまたはMLモデルのみが特定のフィールドにアクセスできるようにします。
不可欠なデータ品質:カスタマイズ可能なデータ品質管理とプロアクティブなアラート(プライベートプレビュー中)を活用して、不正なレコードを隔離して修復できます。ダッシュボード、アプリケーション、生成AIモデルの強化など、提供されるすべてのデータプロダクトで一貫性と信頼性を確保します。
Snowflake AIデータクラウド:イノベーションのための構築
モダンデータエンジニアリングの目標は、生データからビジネスインパクトへの最短パスを提供することです。今回のGAリリースは、シンプルでオープン、かつスケーラブルな道筋を実現するための大きな飛躍を示しています。
Affirmのようなお客様は、AI-readyデータファウンデーションの拡大に必要な、データの主権とシンプルな運用を両立しています。Affirmでは、レプリケーションパイプラインの月間コストが6倍削減され、不可欠なSLAが最大66%向上しました。同社のプレゼンテーションをご覧ください。
この結果、データエンジニアは事後対応型の業務から解放され、熟練したデータ職人としての役割に集中できます。複雑なインフラストラクチャや依存関係の管理が不要になります。結果として、イノベーションを提供できるようになるのです。
データの複雑性を克服する準備はできていますか?
ソリューション:Data Engineer Connect:Architecting for AIのデモをご覧ください。
詳細:ソリューションページにアクセスして、各ユースケースの詳細な手順を確認してください。
構築を開始します。
将来の見通しに関する記述
このページには、Snowflakeが将来提供する製品に関する記述を含め、将来の見通しに関する記述が含まれていますが、これはいかなる製品の提供も約束するものではありません。実際の成果や提供物は異なる可能性があり、既知および未知のリスクおよび不確実性の影響を受けます。詳細については、最新の四半期報告書(10-Q)をご覧ください。
12022年11月から2025年5月までの期間について、お客様の実稼働ユースケースと概念実証(PoC)の実践におけるSnowparkとマネージドSparkサービスの速度とコストの比較結果に基づきます。調査結果はすべて、実データによる実際のお客様の結果を要約したものであり、ベンチマーク用に作られたデータセットを表すものではありません。
