製品 & テクノロジー

インテリジェンスと相互運用性:AIデータガバナンスに不可欠なデータカタログの要件

データカタログを単なる記録システムとする考え方は、もはや過去のものです。また、その作成や維持に膨大な手動の作業を費やす時代も終わりました。エージェント、コパイロット、自律型アナリティクスの時代においては、ユニバーサルAIカタログが必要です。このカタログは、組み込み型で相互運用性と回復力を備え、マシンスピードの推論に対応している必要があります。

「ユニバーサルAIカタログ」は、単なる流行語ではありません。「AIカタログ」とは、インテリジェントなカタログを意味します。コンテキストに関する知識を備えており、人間とAIエージェントの両方がより迅速かつスマートに作業できるよう支援します。「ユニバーサル」は相互運用性を表しています。Snowflake、AWS、Microsoftなどの個別のプラットフォームを超えて、データエステート全体を見渡す視点を提供します。

ユニバーサルAIカタログに必要なコンポーネント

ユニバーサルAIカタログには、2つの決定的な要素があります。 

  • セマンティックレイヤー:複雑な生データ(データベースやデータレイクに保存されているデータ)と、それを使用する人間やAIエージェントの間に位置する、ビジネスフレンドリーなレイヤー

  • ユニバーサルな相互運用性:基盤となるクラウド、ストレージ形式、コンピュートエンジンに関係なく、断片化したデータエステート全体でガバナンス、セキュリティ、メタデータをオーケストレーションするデータカタログの機能

これらの概念をさらに掘り下げ、両者が密接に結びついている理由を見ていきましょう。

マシン向けの文法:AIエージェントにセマンティックレイヤーが必要な理由

マシンインテリジェンスにはコンテキストが必要です。これは多くの場合、セマンティックレイヤーと呼ばれます。従来のカタログは列名などの生データを提供します。一方、AI-readyなカタログは、そのデータが実際に何を表しているかを定義することで、セマンティックレイヤーを通じて知識を提供します。

人間は列から意味を推測できます。しかし、AIエージェントは文字通りにしか解釈できず、コンテキストを理解できません。エージェントは「TX_LMT」を数値として認識するかもしれません。しかし、その通貨やリージョンのコンテキストを推測することはできません。あるいは、「TX_LMT」が実際には「tax local municipal total(地方税総額)」を意味しているにもかかわらず、「tax limit(税限度額)」の略であると推測してしまう可能性があります。これにより、重大なエラーが発生します。セマンティックレイヤーは、用語の具体的な定義を提供します。これが強固なガードレールとして機能します。その結果、エージェントと人間の両方が、公式のビジネスロジック、コンテキスト、定義に従うようになります。 

このレイヤーの信頼性は、基盤となるガバナンスの信頼性に依存します。機密データ保護、リネージ、データ品質モニタリング、そしてロールベースのアクセス制御(RBAC)や属性ベースのアクセス制御(ABAC)などのポリシーを統合することで、ガバナンスは静的な障壁から柔軟なシールドへと変化します。これにより、人間やマシンと共有されるデータが正確で追跡可能であることが保証されます。また、こうしたシールドは、データの機密性にリアルタイムで適応するセキュリティポリシーによって、アーキテクチャレベルで拘束されます。

一度のガバナンス設定で、あらゆる場所に適用:相互運用性のないインテリジェンスが不十分である理由

セマンティックレイヤーは、ユニバーサルカタログに深さ(意味と知識)を提供します。一方、ユニバーサルな相互運用性は、広さ(エステート全体への到達範囲)を提供します。この両方が欠けている場合、AI戦略は体を持たない頭脳、あるいは頭脳を持たない体のようなものになってしまいます。

ユニバーサルAIカタログでは、セキュリティポリシー(マスキング、きめ細かなアクセス制御)が相互運用可能なアクセスパスに組み込まれています。AIエージェントがサードパーティのコンピュートエンジンを介してデータにアクセスする場合、カタログのセマンティックインテリジェンスもそれに伴って移動します。エージェントにはカタログの知識に基づくガバナンスが適用されるため、使用しているツールに関係なく、機密データは保護されたままになります。

セマンティックレイヤーと、相互運用可能なユニバーサルカタログを組み合わせることで、ビジネスのコントロールセンターとなり、次のような利点が得られます。  

  • スケール:ガバナンスをゼロから再構築することなく、新しいデータソースや新しいAIモデルをすぐに追加できる

  • アジリティ:セマンティックレイヤーがカタログ全体に拡張されるため、ビジネス定義への更新がほぼ即時にあらゆる場所に反映される

  • 信頼性:ガバナンスルールが消費するデータと不可分であるため、従業員やエージェントがポリシーを遵守していることを「期待する」状態から「確信する」状態へと移行できる

現在のエンタープライズデータカタログ市場

10年以上にわたり、従来のエンタープライズデータカタログはメタデータを一元化し、用語集を構築してきました。そして、組織が信頼できるデータを検索できるよう支援してきました。目標は、「データのためのGoogle」を構築することでした。これにより、アナリストはテーブルを見つけ、誰がそれを所有しているかを確認できるようになりました。

AIの台頭により、焦点は人間による閲覧と検索から、マシンによる推論へと移りました。多くのカタログは、この移行に失敗しています。なぜなら、アクティブでインテリジェントな制御プレーンとしてではなく、受動的なリポジトリとしてしか機能できないためです。

組織がAIエージェントを正常に展開するには、これらの分断されたインベントリから脱却する必要があります。そして、Snowflake HorizonカタログのようなユニバーサルAIカタログへと移行しなければなりません。これにより、すべてのクエリにセキュリティ制御が組み込まれ、プロアクティブなリスク軽減が促進されます。また、運用上のアジリティも向上します。これにより、組織はガバナンスフレームワークを再構築することなく、データソースを拡張したりAIモデルを更新したりできます。その結果、エンタープライズは回復力を維持し、イノベーションに備えることができます。

Diagram showing Horizon Catalog in an architecture stack with a highlight on interoperability features.

Snowflake Horizonカタログ:企業全体のためのユニバーサルAIカタログ

セマンティックコンテキストレイヤー

従来のデータカタログはドキュメント化に優れています。しかし、AIエージェントには既存のデータの用語集以上のものが必要です。つまり、ビジネスコンテキストが必要になります。LLMはSQLの生成に非常に優れています。しかし、リレーショナルセマンティクスには苦労します。また、粒度、マルチホップ結合、ブリッジテーブルに関する推論や、微妙な二重カウントの回避の信頼性ははるかに低くなります。たとえ一見完全に妥当に見えるクエリでも、意味論的に間違っている可能性があります。

Horizonカタログはセマンティックビューを可能にします。これは単なる説明的なメタデータではありません。Snowflakeにはコンパイルエンジンがあります。これはエンティティ、リレーションシップ、メトリクス、ディメンション、有効な結合パスを理解します。これにより、クエリ実行時にその構造を適用できます。LLMにテーブル名や外部キーからビジネス上の意味を推測させることはしません。代わりに、明示的でガバナンスの効いたセマンティックコントラクトを提供します。これは、エージェントに紙の地図の山ではなくGPSを与えるようなものです。エージェントはガバナンスが適用された経路に従って結論に到達します。ガードレールはセマンティック定義の一部であるため、エージェントはガードレール内にとどまります。

ガバナンスの基準を引き上げるカタログを使用する場合、これはさらに強力になります。Horizonカタログは、単なるメタデータの使用にとどまりません。情報の流れを追跡する深いデータリネージと、整合性を確保する統合されたデータ品質モニタリングを提供します。データセキュリティは後付けの機能ではなく、基盤となるレイヤーです。トラストセンターと使いやすい機密データ保護により、PIIが権限のないユーザーの目に触れる可能性を減らします。RBACとABACを組み合わせることで、組織は硬直的で手作業の権限設定から、柔軟でコンテキストに応じたポリシーに移行できます。

Databricksには既存のセマンティックモデルという概念がありますが、手動の作業が必要です。Snowflakeは、既存のコンテキスト(BIモデル、SQLクエリ)からのセマンティックモデルの自動作成を可能にします。また、モデルの改善と進化のためのAIを活用した提案も可能にします。これにより、AIを活用したアナリティクスをすぐに稼働させることができます。そして、ビジネスの変化に合わせてセマンティックコンテキストを確実に進化させることができるため、より効率的です。Snowflakeは、クエリ履歴と使用状況データに基づいた提案も生成します。そのため、セマンティックビューは時間の経過とともに改善されます。

エコシステム内のどこにあってもデータに追従する、実装が容易なガバナンス

多くのレガシーカタログは、断片化されたデータ資産のために構築されていました。複数のツールや環境からのメタデータをつなぎ合わせていたのです。そのモデルは、データが至る所に存在することを前提としています。そして、ガバナンスは事後的に集約されなければならないと想定しています。

Snowflakeはこの構図を覆します。データ、コンピュート、ガバナンス、カタログは、クラウドやリージョンを越えてシングルプラットフォームに統合されています。AIがデータの作成、共有、コラボレーションを加速させる中、組織は脆弱で緩やかにつながったガバナンスのオーバーレイを許容することはできません。マシンスピードのデータインタラクションに合わせて拡張できる、統合されたインテリジェンスレイヤーが必要です。

たとえば、DatabricksのUnity CatalogはDatabricksエコシステムに最適化されており、そこで素晴らしい機能を発揮します。しかし、Horizonカタログのようなユニバーサルな到達範囲が欠けています。Horizonカタログは、あらゆるエンジン、あらゆるデータ形式、あらゆる場所と互換性があります。ネイティブなSnowflakeオブジェクト、あらゆるエンジンで読み書き可能なオープンテーブルフォーマット(Iceberg、Delta)のデータ、リレーショナルデータベース(SQL Server、Postgresなど)のデータ全体に及びます。HorizonカタログはAWS、Azure、GCP全体でも一貫して機能します。また、Apache Polaris(インキュベーション中)などのオープンソースカタログにいつでも移行できるパスを備え、高いアーキテクチャ柔軟性を提供します。 

対照的に、Snowflake HorizonカタログにはApache PolarisとIceberg REST APIが組み込まれています。これにより、オープンなレイクハウスアーキテクチャを実現します。完全な双方向の相互運用性により、ガバナンスはクラウドやエンジンを越えてデータに追従します。これには、外部エンジン読み取りの一般提供や、間もなく開始される外部エンジン書き込みのパブリックプレビューが含まれます。行アクセスや列マスキングなどのデータ保護ポリシーは自動的に適用されます。これは、Apache Sparkなどの外部ツールを介してデータにアクセスする場合でも同様です。 

つまり、ガバナンスはエコシステム内のどこでもデータに追従するということです。そして、これを確実にするために手動の作業を行う必要はもうありません。Cortex Codeを使用すると、自然言語を使用して機密データを検索できます。最小限の技術的専門知識で、数分でポリシーを適用できます。Cortex Codeに、特定のデータベースでPIIをスキャンする、あるいは既存のマスキングポリシーを監査するよう依頼するだけで、ガバナンスの実装は障壁から気にする必要のない事項へと変わります。

統合された制御プレーン:意味と適用の融合

AIの成功は、部分的に信頼にかかっています。その信頼を生み出すには、最初から最後までアーキテクチャに組み込まれたガバナンスフレームワークが必要です。Snowflake HorizonカタログのようなユニバーサルAIカタログは、この役割を果たします。複雑なビジネスロジックと、多様で分散したデータ資産とを結びつける橋渡し役として機能します。

セマンティックな深さと適用を組み合わせることで、Horizonカタログは単なるデータ管理を超え、エージェント型のオーケストレーションの領域へと踏み出せます。こうした機能は個別でも役立ちます。しかし、これらを組み合わせることが、機能的なAI戦略の前提条件となるのです。 

Snowflake Horizonカタログの詳細については、こちらをご覧ください。

記事をシェアする

あなたにおすすめ

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30日間の無料トライアル
  • クレジットカード不要
  • いつでもキャンセル