SNOWFLAKE WORLD TOUR TOKYO(9月10日〜11日 東京開催)

今なら、一般登録に先駆けてセッション登録ができる早期登録者特典が得られます。

データプロビナンスとデータリネージ:違いの理解

データリネージとデータプロビナンスの違いを理解することで、チームは依存しているデータについて、より適切な質問ができるようになります。本ガイドでは、それぞれの概念が可視性、信頼性、ガバナンスをどのように異なる方法でサポートしているかについて解説します。また、組織がアナリティクス、運用、AIにデータを適用するにつれて、両者の重要性が高まっている理由についても説明します。

プロビナンスとリネージ
  • 概要
  • データプロビナンスとデータリネージの比較概要
  • データリネージとは
  • データプロビナンスとは
  • 詳細な比較:違いが重要になる場合
  • データリネージが必要な場合
  • データプロビナンスが必要な場合
  • データリネージとデータプロビナンスの連携
  • AIガバナンスの側面:プロビナンスがこれまで以上に重要である理由
  • Snowflakeがデータリネージとデータプロビナンスの両方をサポートする方法
  • データプロビナンスとデータリネージに関するよくある質問
  • 関連リソース

概要

「データプロビナンス」と「データリネージ」という用語は、同じ意味であるかのように使われることがよくありますが、それぞれ異なる疑問に回答するものです。

リネージは、ソースから宛先まで、データがたどる完全なジャーニーを表します。プロビナンスは本質的に管理の連鎖です。データがどこから来たのか、誰が処理したのか、そしてその信頼性を何が裏付けているのかを表します。また、リネージは通常、より技術的かつ運用的であるのに対し、プロビナンスはガバナンスおよびコンプライアンス指向である傾向があります。

本ガイドの以降のセクションでは、プロビナンスとリネージのニュアンスの違いや、実際にその区別が最も重要になる場面について説明します。また、AIガバナンスによってプロビナンスを無視することがはるかに難しくなっている理由についても解説します。

データプロビナンスとデータリネージの比較概要

ガバナンス、コンプライアンス、AIにおいて最も重要な側面から、この2つを比較します。

ディメンション データリネージ データプロビナンス
重要な領域 システム間のフローと変換 データの起源と真正性 リネージは、収益の列がSalesforceからステージングテーブル、dbtモデル、そしてエグゼクティブダッシュボードへと流れることを示します。プロビナンスは、Salesforceのデータが、データエンジニアリングチームが所有する、承認されたETLジョブによってロードされたことを示します。
重要な問い データはどこへ行き、どのように変化するのか このデータはどこから来たのか、そして信頼できるのか リネージは、「このソーステーブルを変更した場合、どのダッシュボードが機能しなくなるか」を問題とします。プロビナンスは、「このトレーニングデータセットは適切な同意を得て収集されたか」を問題とします。
範囲 ソースから消費までのエンドツーエンドのライフサイクル ソースの作成、収集、取り扱いに結びつく履歴記録 リネージは、取り込み、変換、レポート作成に至るまでの動きをマッピングします。プロビナンスは、ソースがどのように作成、収集、レビュー、承認されたかを記録します。
主なユーザー データエンジニア、アナリスト、プラットフォームのチーム 監査担当者、コンプライアンスチーム、研究者、AIガバナンスのリーダー エンジニアは、機能しなくなった指標をデバッグするためにリネージを使用します。監査担当者は、合法的な収集と取り扱いを検証するためにプロビナンスを使用します。
主なユースケース 影響分析、デバッグ、移行計画、下流の依存関係マッピング 監査、信頼性の検証、規制当局への証明、AIトレーニングデータの認証 リネージは、列の名前を変更する前に役立ちます。プロビナンスは、規制当局に証拠を提出したり、トレーニングセットを認証したりする前に役立ちます。
詳細レベル オブジェクトレベルおよび列レベルのフロー、依存関係、変換 誰が、どのような条件下でデータを作成、変更、レビュー、または承認したかの記録 リネージは、CASTを介した列マッピングを示す場合があります。プロビナンスは、作成者、レビュー担当者、タイムスタンプ、収集方法を示す場合があります。
AIとの関連性 特徴量パイプライン、データセット、モデル、下流のサービスを通じたデータの追跡 トレーニング、検証、テストデータの出所、準備、ガバナンスの実証 リネージは、どの特徴量ビューとデータセットがモデルに供給されたかを示します。プロビナンスは、そのトレーニングデータがどのように調達、準備、評価されたかを示すのに役立ちます。

データリネージとは

データリネージは、データがソースから宛先までたどる完全なフローを追跡します。これには、通過したすべてのシステム、適用されたすべての変換、供給されたすべての下流のアセットが含まれます。リネージは、CTAS、INSERT、MERGE操作などのデータの移動と、ベーステーブルを参照するビューなどのオブジェクトの依存関係の両方を捕捉します。そのため、オブジェクト間の関係を理解し、影響分析をサポートするのに特に役立ちます。

リネージは本質的に運用的なものです。リネージは、チームが次のような疑問に答えるのに役立ちます。

  • どの上流システムがこのテーブルにデータを供給しているか。
  • この指標がダッシュボードに到達する前に、どのような変換が行われたか。
  • 列を変更した場合、どの下流のアセットが機能しなくなるか。

経営陣向けダッシュボードの収益の数値を例に挙げてみましょう。リネージを使用すると、ユーザーはその数値をセマンティックレイヤー、中間モデル、ステージングテーブル、ソースシステムへとさかのぼって追跡できます。最終的な値を形成した変換や依存関係を見つけるまで、この追跡は可能です。実際には、この作業は複数のレベルで行われることがよくあります。ソースが何に影響を与えるかを確認するフォワードリネージ、出力がどこから来たかを確認するバックワードリネージ、そしてテーブル全体ではなく特定のフィールドに関する疑問がある場合の列レベルのリネージなどです。

データリネージ:エンタープライズデータ管理の基礎ガイドでデータリネージのベストプラクティスなど、詳細をご覧ください。

データプロビナンスとは

データプロビナンスとは、データがどこから来たのか、誰が作成したのか、どのような条件下で作成されたのか、そしてどのような信頼性や権限を持っているのかを示す記録のことです。リネージが動きと変換に焦点を当てるのに対し、プロビナンスは出所、管理、真正性に焦点を当てます。

運用面において、プロビナンスには、誰がデータを作成またはロードしたか、いつアクセスされたか、どのようなポリシーが適用されたか、タグが継承されたかどうか、そしてどのような承認や制御がその使用を形作ったかなどが含まれます。プロビナンスは、次のような疑問に答えるのに役立ちます。

  • このデータセットは社内で生成されたものか、それともサードパーティから取得したものなのでしょうか。
  • このデータを生成したソースシステムを所有しているのは、どのチームまたは個人でしょうか。
  • このソースシステムはこのタイプのデータに対して信頼できると見なされているのでしょうか、それともより標準的なソースがあるのでしょうか。
  • このソースはこれまでに、品質の問題、スキーマのドリフト、またはコンプライアンス違反のフラグが立てられたことがあるのでしょうか。
  • 各ハンドオフポイントで、転送はログに記録され、検証されたのでしょうか。

具体的な例として、規制当局に提出される臨床試験データが挙げられます。リネージは、データが収集システムからキュレートされたテーブルやレポートにどのように移動したかを示すことができます。プロビナンスは、データが承認された担当者によって、承認された方法で収集され、提出を裏付ける文書化された処理チェーンを伴っているかどうかという、異なる立証責任に対処します。そのため、プロビナンスは信頼や証拠としての使用と密接に結びついているのに対し、リネージは通常、エンジニアリングの可視性や変更管理と結びついています。

詳細な比較:違いが重要になる場合

この2つを区別する最も簡単な方法は、リネージはフローに関するものであり、プロビナンスは証明に関するものであるということです。リネージは、ジョブが失敗したとき、メトリクスが変更されたとき、または移行のスコープが設定されているときに、エンジニアが確認するものです。プロビナンスは、単にデータがどのように移動したかだけでなく、ソースと処理が意思決定、監査、またはモデルのリリースに必要な基準を満たしているかどうかが問われる場合に、より重要になります。

もちろん、重複する部分もあります。どちらも、時間の経過とともにデータに何が起こったかを記述します。しかし、その履歴の構成方法は異なります。リネージはそれをシステムや変換を経るパスとして構成するのに対し、プロビナンスは、出所、管理、コンテキスト、および信頼シグナルの履歴記録として構成します。

リネージグラフは、モデルの特徴量が最終的に3つの上流のテーブルから来ていることを示します。プロビナンス記録は、それらのテーブルが承認されたデータから構築され、許容される条件下で収集され、バイアスがないかレビューされ、使用前に正しくタグ付けされたかどうかを示します。

AIシステムによって曖昧さのコストが増大しているため、現在、この区別はより重要になっています。McKinseyによる2025年のグローバル調査では、回答者の47%が、自社で生成AIの使用による悪影響を少なくとも1回経験したと回答しています。その結果、企業はAIガバナンスを強化し、リスクおよびデータガバナンス機能を一元化して、これらのAI関連の影響に対処しています。AIが本番環境のワークフローに導入されるにつれ、チームは、それらのシステムが消費するデータの背後にある変換パスと信頼記録の両方を必要としています。

データリネージが必要な場合

チームは通常、パイプライン全体の依存関係をトレースし、データがレポートやモデルにどのように移動したかを理解し、スキーマ、ロジック、またはプラットフォームの変更による下流への影響を評価する必要がある場合に、リネージに依存します。以下のユースケースをご覧ください。

影響分析と変更管理

チームがソーステーブルを変更したり、フィールドを非推奨にしたり、変換を書き換えたりする前に、リネージはその決定に関連する下流のオブジェクトを示します。リネージは、オブジェクト間の関係を理解し、影響分析をサポートする方法です。これは、変更が本番環境に到達する前にその影響範囲を把握したい場合に、チームがまさに必要とするものです。

根本原因分析とデバッグ

レポートが間違っているように見える場合、リネージはスタックを遡って問題をトレースするのに役立ちます。これには、リフレッシュが停止した上流のテーブル、ロジックが変更されたビュー、または意図しない影響を与える型キャストやフィルターを導入した変換を見つけることが含まれます。リネージはデータの移動と依存関係の両方をキャプチャするため、マテリアライズドパスと参照オブジェクトの両方を通じてエラーを追跡するのに役立ちます。

データ移行とモダナイゼーション

依存関係が部分的にしかわかっていない場合、移行作業はリスクを伴います。ウェアハウスのモダナイゼーションプログラム、プラットフォームの統合、またはセマンティックレイヤーの再設計は、どのオブジェクトがどの出力に供給されるか、それらの間にどのような変換が存在するか、そしてどの下流のコンシューマーがまだ古いパスに依存しているかを把握することにかかっています。優れたリネージソリューションは、プラットフォームやツール全体にわたる可視性を提供します。これは、アーキテクチャが複数のプラットフォームにまたがる場合に価値があります。

データフローの規制コンプライアンス

移動が問題となるため、リネージが重要になるコンプライアンスのケースもあります。GDPRCCPAなどの規制を遵守するために、組織が個人データや機密データがシステム間でどのように流れるかを示す必要がある場合、リネージは、そのパスをトレースし、ガバナンス対象のソースに接続されている下流のアセットを特定するための構造化された方法を提供します。これは、データの元の正当性を証明することと同じではありませんが、露出、伝播、および運用範囲を理解するために不可欠です。

自動化されたデータリネージトラッキングがシステム間でデータをどのようにマッピングし、ガバナンスとコンプライアンスをどのように強化するかについて詳しくは、データリネージの追跡:仕組みをご覧ください。

データプロビナンスが必要な場合

チームは、データセットの出所、作成者や変更者、適用されている管理策、そして監査、レビュー、またはモデルの検証に耐えうるかどうかを確認する必要がある場合に、プロビナンスに注目します。

データに対する信頼の確立

データが新しい目的、特に重大な目的に適用される場合、プロビナンスは常に重要になります。プロビナンスは、現在提案されていることを正当にサポートする方法で(適切な当事者によって、適切な条件下で、適切な同意または認可を得て)データが収集されたかどうかをチームが判断するのに役立ちます。アクセス履歴、ポリシーの参照、および継承されたガバナンスメタデータはすべて、その状況の把握に貢献します。

AIおよびMLトレーニングデータの認証

ここで、プロビナンスが特に重要になります。責任あるAIフレームワークはすべてプロビナンスメタデータに依存しています。また、EU AI法の第10条では、高リスクAIシステム用のトレーニング、検証、およびテストデータセットは、システムの意図された目的に適したデータガバナンスおよび管理手法の対象とならなければならないと規定されています。

プロビナンスはEUだけの問題ではありませんが、EU AI法は、多くの社内AIガバナンスプログラムがすでに必要としている事項を明確にしました。それは、トレーニングデータの出所、準備方法、および適切な管理下でレビューされたかどうかに関する証拠です。

不十分なプロビナンスは、すぐに現実的な問題となります。チームがトレーニングデータの出所や取り扱いを検証できない場合、モデルは、古く、偏った、低品質な、または不適切に調達された入力によって形成された出力を生成する可能性が高くなります。そして、モデルがお客様の意思決定、社内承認、または規制対象のビジネスプロセスに影響を与えるようになると、不十分なプロビナンスは重大なリスク要因となります。

監査とフォレンジック

機密データが予期しない場所に現れた場合や、ポリシー違反やセキュリティインシデントの発生時に何が起きたかをチームが再構築する必要がある場合、プロビナンスは管理の連鎖を確立するのに役立ちます。ここでアクセス履歴が役立ちます。アクセス履歴は、規制コンプライアンス監査を容易にするように設計された方法で、ユーザー、クエリ、アクセスされたオブジェクト、変更されたオブジェクト、および参照されたポリシーをリンクするためです。

科学および研究のデータ検証

研究、臨床、および科学の現場では、パイプラインの可視性だけでなく、再現性と説明可能な取り扱いが求められることがよくあります。リネージマップは、データセットがシステムの正しいシーケンスを通って移動したことを示す場合があります。プロビナンスは、基礎となるデータが、結果に対する信頼を裏付ける方法で作成、収集、レビュー、および維持されたかどうかという、より難しい問題に対処します。

データリネージとデータプロビナンスの連携

これらは補完的な機能であり、競合するものではありません。プロビナンスのないリネージは、データがどのように移動したかを示しますが、ソースが適切であるか、または信頼できるかどうかは示しません。リネージのないプロビナンスは、ソースが信頼できることを示しますが、データがプラットフォームに入った後に何が起こったかは示しません。成熟したガバナンスプログラムには、その両方が必要です。

信用リスクのワークフローでお客様のデータを使用する銀行を考えてみましょう。プロビナンスは、ソースデータが承認されたチャネルを通じて収集され、適切にガバナンスされていることを確立するのに役立ちます。次に、リネージは、そのデータが変換、特徴量エンジニアリング、モデル、および下流のレポートをどのように移動したかを示します。両方のビューがなければ、組織は不完全なエンジニアリングの全体像か、不完全な信頼の全体像のいずれかを抱えることになります。

これが、AIガバナンスがこれら2つの概念をより密接に結びつけている理由でもあります。モデルチームは、どの特徴量ビュー、データセット、およびモデルバージョンが接続されているかを追跡するためにリネージを必要とする場合があります。同じチームが、基礎となるトレーニングデータの出所、適用された管理、およびデータセットが意図した用途に適していたかどうかを説明するために、プロビナンスを必要とする場合もあります。

データリネージツール:機能と最適なツールの選択方法を参照し、データリネージソリューションで重視すべき点をご確認ください。

AIガバナンスの側面:プロビナンスがこれまで以上に重要である理由

AIガバナンスの進化に伴い、組織がデータ記録に求める要件が変化しています。AIモデルが重要な業務や意思決定に影響を与えるようになると、プロビナンスの確保が不可欠になります。モデルの出力について疑問が生じた場合、問題がモデルのアーキテクチャやプロンプト設計にとどまることはめったにありません。多くの場合、原因はデータ自体に遡ります。データが適切に収集されたか、適切な母集団やビジネスコンテキストを反映しているか、適切な管理下でレビューされたかといった点です。さらに、それらの決定が、技術チーム、監査人、またはガバナンス責任者が後で再構築できる方法で文書化されているかどうかも問われます。

EU AI法はこの変化の目に見える兆候ですが、根本的なプレッシャーは単一の規制よりも広範です。世界中の組織が、モデルの入力が適切にガバナンスされていたか、または出力を説明し、正当性を証明できるかという問題に直面しています。社内のレビューチーム、顧客、監査人、およびビジネスステークホルダーは皆、モデルの背後にあるデータが意図した用途をサポートする方法で処理されたという証拠を必要とする場合があります。

この記録がないと、トレーニングデータの問題は、不正確な出力、偏ったレコメンデーション、または不適切な意思決定として、遅れて表面化することがよくあります。プロビナンスは、AIシステムが依存するデータのライフサイクル全体にわたる出所、取り扱い、およびガバナンスのより明確な記録を提供することで、チームがモデルの動作とデータ履歴の間のリンクを特定するのに役立ちます。

実際には、組織はリネージとプロビナンスのどちらかを選択するべきではありません。データがパイプライン、モデル、および下流のアセットをどのように移動したかを追跡するにはリネージが必要です。また、そのデータのソースと取り扱いが、現在付随している用途をサポートしているかどうかを理解するにはプロビナンスが必要です。AIガバナンス、監査の期待、および部門横断的なレビューがより厳格になるにつれて、両方の種類の可視性を使いやすく最新の状態で維持することが課題となります。

Snowflakeがデータリネージとデータプロビナンスの両方をサポートする方法

Snowflakeでは、リネージとプロビナンスに関連するシグナルは、一連の接続された機能を通じて表示されます。オブジェクト間の関係はオブジェクトレベルおよび列レベルで追跡されます。一方、アクセス履歴、タグリネージ、およびMLリネージは、データがどのように使用され、ガバナンスされ、下流のAIアセットに接続されたかに関する追加のコンテキストを提供します。Snowflake Horizonは、チームが環境全体でそのコンテキストを活用するのに役立つ、より広範な検出およびガバナンスレイヤーを提供します。

プロビナンス指向の可視性については、アクセス履歴(ACCESS_HISTORY)が、クエリがデータを読み書きした日時を記録します。さらに、監査をサポートする方法で、ユーザー、クエリ、オブジェクト、列、および参照されたポリシーをリンクします。Snowflakeはまた、TAG_REFERENCES_WITH_LINEAGEを通じてタグリネージメタデータを提供します。これにより、チームはガバナンスタグが直接適用されたか、関連するオブジェクト間で継承されたかを理解できます。

Snowflakeはまた、ネイティブオブジェクトを超えてリネージを拡張します。外部リネージは、OpenLineage互換イベントを使用して、外部ETLツールやソースデータベースからのリネージ情報をネイティブリネージグラフに取り込みます。これにより、より広範なエコシステム全体でデータがどのように移動するかについて、より統一された全体像が作成されます。

AIおよび機械学習のワークフローでは、MLリネージが、ソーステーブル、特徴量ビュー、データセット、登録済みモデル、およびデプロイ済みモデルサービス間の関係を追跡します。これにより、チームは従来のリネージのニーズと、どのデータがどのモデルアーティファクトに供給されたかというプロビナンス指向の疑問を結び付けることができます。

データプロビナンスとデータリネージに関するよくある質問

データリネージは、データがシステム間でどのように移動し、変換されるかを示す運用記録です。一方、データプロビナンスは、同じシステム全体にわたる記録であり、データの出所、収集者、収集条件、およびその作成コンテキストが現在提案されている用途をサポートしているかという疑問に答えます。これらは連続的でも独立したものでもありません。同じジャーニーを見るための2つの異なる視点です。

はい。リネージはデータがたどった経路を説明し、プロビナンスはそのソースと取り扱いが信頼できるかどうかを説明します。成熟したガバナンスプログラムには、その両方が必要です。

AIチームは、トレーニング、検証、テストデータがどこから来たのか、どのように準備されたのか、そしてどのようなコントロールがその使用を管理したのかを文書化する必要性が高まっています。EU AI法の第10条は、高リスクAIシステムに対するその要件を明確にしています。

エグゼクティブダッシュボードの収益指標から、セマンティックモデル、変換ジョブ、ステージングテーブル、そしてソースとなるCRMシステムへと遡って追跡することは、データリネージの取り組みです。

トレーニングデータセットが承認されたソースから、文書化された同意およびレビュープロセスに基づいて収集され、誰がロードして承認したかの記録があることを示すことは、データプロビナンスの取り組みです。

常にそうとは限りません。Snowflakeでは、ネイティブリネージ、アクセス履歴、タグリネージ関数、およびMLリネージにより、同じプラットフォーム内でリネージとプロビナンス指向の両方のユースケースをサポートできます。