AI時代でのデータに対する主導権の確立

オープンなレイクハウスの構想では、あらゆるエンジンからアクセス可能な、ガバナンスの効いた単一のデータコピーを想定しています。しかし、このアイデアは長らく「独自仕様の引力」に悩まされてきました。そして、データの相互運用性に対するコミュニティの最初の答えとしてApache Iceberg™が登場しましたが、もはやオープンフォーマットだけでは十分ではありません。
AI時代において、データサイロ、ガバナンス、セマンティックの断片化は、イノベーションを阻害する要因となります。チームがデータの存在する場所でデータを活用できない場合、データの移動を余儀なくされます。その結果、コストが膨れ上がり、AIが必要とするリッチなセマンティックコンテキストを欠いた「ノイズの多い」データが生成されます。これでは、AIのイニシアチブは始まる前から損なわれてしまいます。
Snowflakeは、全面的な相互運用性が現実となる未来に向けて開発を進めています。データ、ガバナンス、セマンティックの各レイヤーの相互運用性にわたってコミュニティと協力することで、お客様がデータサイロや多層的な断片化を根本から克服できるよう支援しています。
その結果、ユーザーは自らのデータに対して主導権を持つことができます。ユーザーは、ガバナンスの制御やセマンティックコンテキストに影響を与えることなく、あらゆる操作において、単一の論理データコピーに対してどのように、どこからセキュアに操作や処理を実行するかを決定できます。
データに対する主導権を持つためのアーキテクチャ
しかし、データに対する主導権は、単一のベンダーや単なるデータの相互運用性だけでは実現できません。アーキテクチャの各レイヤーにおける相互運用性が必要です。このビジョンを実現するには、ベンダーニュートラルな相互運用性を優先し、広く受け入れられているオープンでコミュニティ主導のイニシアチブにソリューションの基盤を置く必要があります。
データの相互運用性
エンジンに関係なく、ユーザーがデータに対する主導権を握れるようにするための第一歩は、共通のテーブルフォーマットです。プラットフォーム全体での幅広いネイティブサポートと活発なコミュニティを持つIcebergこそが、そのフォーマットです。ごく最近、コミュニティは重要なマイルストーンに到達しました。それがIceberg v3です。Iceberg v3は既存の機能を基盤としており、半構造化データや変更データキャプチャ(CDC)などの重要なユースケースへとデータの相互運用性を拡大します。
本日、サンフランシスコで開催のIceberg Summitにおいて、v3機能のより幅広いサポートがまもなく一般提供されることを発表でき、大変嬉しく思います。
Iceberg v3がサポートするユースケース
幅広いv3機能をサポートすることで、お客様のより多くのデータに、これまで以上に多くのエンジンからアクセスできるようになります。お客様は、SnowflakeのHorizonカタログ(または任意のカタログ)で管理されるApache Icebergテーブルに対してSnowflakeを使用し、以下のユースケースを実現できます。
- VARIANTデータ型:Icebergテーブル内で半構造化データを扱えるようになります。シュレッディングを使用できる可能性があり、半構造化データの柔軟性と構造化データのパフォーマンスを両立させます。
- 行リネージ:複数のエンジンにまたがる場合でも変更を追跡することで、行レベルのCDCを強化します。
- 削除ベクトル:行レベルの削除をより高いパフォーマンスで繰り返し実行できるようにします。また、位置削除ファイルに関連するメンテナンス上の大きな困難も軽減します。
- ナノ秒精度のタイムスタンプ:高頻度の金融データ、イベントテレメトリ、またはIoTデータで一般的な、より高精度のタイムスタンプをサポートします。
- 地理空間タイプ:幾何学情報をネイティブに保持し、それに基づいてプルーニングします。
pg_lakeでトランザクションのサイロを打破
すべてのデータセットが分析用のデータレイクから始まるわけではありません。企業の最も価値ある情報の多くは、Postgresなどのトランザクションデータベース内に存在しています。従来、トランザクションと分析という2つの世界は分断されていました。これらを連携させるために、チームはデータを下流に移動させるデータパイプラインを使って両者を結びつける必要がありました。
このギャップを埋めるため、Snowflakeはpg_lakeを開発し、オープンソース化しました。この拡張機能により、Postgresは標準的なデータベースからデータレイクハウスの機能的な一部へと変貌します。pg_lakeは、データベースに2つの新しい機能を提供します。
- データを移動させずにその場でクエリできます。複雑なロードプロセスなしで、Postgresがデータレイクから直接ParquetやCSVなどのファイルを読み取れるようにします。
- Postgres自体を管理レイヤーとして使用し、Icebergテーブルをネイティブに管理できます。
これにより、トランザクションデータと分析データが同じオープンな言語を共有できるようになります。
ガバナンスのポータビリティ:Apache Polaris™
ガバナンスコントロールとセキュアなアクセスは、データに追随しなければなりません。だからこそ、2年前にIcebergカタログ(現在のApache Polaris)をオープンソース化して寄贈し、コミュニティと提携して、このオープンソースカタログがApacheソフトウェア財団のトップレベルプロジェクトになるよう支援してきました。私たちの目標は、お客様がセキュリティと相互運用可能なレイクハウスの柔軟性のどちらかを妥協することなく、Snowflakeやその他のプラットフォームのきめ細かなアクセス制御が、あらゆるエンジンのあらゆるコンピュート上で一貫して、かつパフォーマンスを損なうことなく適用される未来を実現することです。
歴史的に、アクセスの認可はデータベースエンジンにハードコードされてきたため、お客様はポリシーの定義とポリシーの実行という2つのレベルで制限されてきました。しかし、問題はお客様がルールの適用においてこれらのエンジンを信頼していないことではありません(実際には常に信頼しています)。そうではなく、きめ細かなアクセス制御(FGAC)では、コンピュートがそれらのルールを理解して実行する必要があるという点にあります。
私たちは、Apache Polarisによってこのサイクルを打ち破ろうとしています。Policy Exchange、Governance Federation、そしてRead Restriction APIの標準を開発することで、ポリシーを交換するための標準化された方法と、プラットフォーム間で適用を管理するための信頼メカニズムを構築しています。Read Restriction APIを使用すると、あるプラットフォームが事前評価されたアクセスルールを共有し、ダウンストリームのエンジンがそれを直接適用できるようになります。これにより、ガバナンスが真にデータに付随するようになり、データマテリアライゼーションの重い「コンピュート税」が排除され、どのエンジンが情報にアクセスしているかに関係なく一貫した適用が可能になります。
目標はシンプルです。Snowflake Horizonやその他のサポートされているカタログのいずれであっても、きめ細かなセキュリティとガバナンスのコントロールは、サーバー側のマテリアライゼーションやパフォーマンスの低下を伴うことなく、あらゆるエンジンで一貫して適用されるべきです。
セマンティックコンテキスト:OSIによるAIのグラウンディング
ビジネスロジックが独自のサイロに閉じ込められていると、AIエージェントはトークンを無駄に消費し、意味を「推測」することになります。この問題に対処するため、私たちはOpen Semantic Interchange(OSI)を構築しています。これは、メトリクス、ディメンション、および関係性に関するベンダー中立の仕様であり、セマンティックコンテキストをIceberg自体と同じくらいオープンで相互運用可能なものにします。最初のOSI仕様はApache 2ライセンスの下で公開されており、Salesforce、dbt Labs、Databricksなど35社以上の業界リーダーの連合によって支持され、財団主導の中立的なガバナンスへの移行が約束されています。
Snowflakeのお客様は、Horizonカタログのセマンティックビューを今すぐ使い始めることができます。これにより、OSIが業界全体で標準化しているのと同じ基盤構造に基づいて構築しながら、Snowflake Cortex AIやエージェントアプリケーションが正確に推論するために必要な、ガバナンスの効いた「真実のマップ」を提供できます。
よりオープンなデータ活用に向けた取り組み
ユーザーのデータに対する主導権を解放するという私たちのコミットメントは、エンジニアリング文化の根本的な変化を表しています。Snowflakeはもはや単なるオープンソースの消費者ではありません。私たちはコミュニティと「共に」構築しているのです。この変化により、コミュニティと協力して、すべての人にとってデータに対する主導権を現実のものにできるようになったことを誇りに思います。
- 9,000以上の貢献:過去2年間で、弊社のエンジニアはオープンソースプロジェクトに対して何千ものコミットとプルリクエストを作成してきました。
- 運用の透明性:私たちはオープンな環境で開発を進めており、Icebergの照合順序などの提案を提出して、パブリックなフィードバックを収集し、コミュニティを通じてコンセンサスを形成しています。
- Iceberg v4:私たちはすでに次のフロンティアで活動しており、単一ファイルコミット/適応型メタデータツリーを含むストリーミングワークロードのレイテンシーを削減するためのコアメタデータの再設計に協力し、Parquetマニフェストとインデックス作成の改善を可能にしています。
未来はすべての人のもの
真のオープンデータの相互運用性を実現するには、私たち全員がそれぞれの役割を果たす必要があります。結局のところ、これは共同責任なのです。これは「独自仕様の引力」を克服することを意味します。なぜなら、それこそがAIの時代に求められていることだからです。
単一のベンダーだけで、データのサイロ化と断片化を解決することはできません。この共通の目標に向かって取り組む、ユーザー、ベンダー、組織の多様なコミュニティが必要です。そうして初めて、世界中のデータチームがオープンソースの約束、つまりデータに対する主導権を持つ能力を実現できるよう支援できるのです。
Iceberg Summitに参加される場合は、PRを作成し仕様提案をレビューしているSnowflakeのエンジニアをぜひ見つけてください。作業は公開されており、門戸は開かれています。ユーザーが自分のデータに対する主導権を持つ未来は、すべてのユーザーのものです。
- Icebergを初めてご利用の場合は、PMCメンバーのRussell Spitzer氏が主導する、まったく新しいベンダー中立のコースで、オープンテーブルフォーマットについて深く学んでいただけます。
- Open Source at Snowflakeニュースレターにサインアップして、オープンソースプロジェクトやコミュニティにおける弊社の取り組みの最新情報を入手してください。
- Open Source at Snowflakeランディングページをチェックして、弊社のコミッターやメンテナー、そして弊社が最も重視しているオープンソースプロジェクトの詳細をご覧ください。
- 新しいeBookのBuilding the Interoperable Lakehouse:Data Strategies for AI Leadersをダウンロードしてください。Apache Icebergを使用した構築のベストプラクティス、Goldman SachsやIndeedのカスタマーストーリーなど、多数のコンテンツが掲載されています。





