基礎ガイド
データガバナンスフレームワーク:ポリシーをアカウンタビリティに変える
このガイドでは、主要なデータガバナンスフレームワークの基礎知識や中核となる構成要素を網羅します。さらに、従来のデータ管理にとどまらず、クラウドや最新のAI環境までを包括した、組織全体での実践的なガバナンス実装アプローチを紹介します。
データガバナンスフレームワークの定義
データガバナンスのフレームワークは、全社横断でデータを一貫して管理、保護、統制するための確固たる土台となります。これがあることで、組織はバラバラになりがちなデータ運用を統一された規律のもとで実施できるようになります。フレームワークはまた、組織の拡大にも耐えうるデータ管理のあり方を定義します。意思決定のプロセスからルールの徹底、効果測定に至るまで、具体的な役割、ポリシー、コントロール、メトリクスを明確にします。
ほとんどのガバナンスプログラムでは、明確な責任の所在を明らかにすることよりも、ルールの文書化に重きが置かれています。ポリシーを策定しデータカタログを整備して、ガバナンス委員会を立ち上げても、データの所有権が不明確なまま組織内を移動することになったとします。するとルールの適用が徹底されず、監査に必要なログが各チームやツールに散在するといった事態を招いてしまいます。
データガバナンスフレームワークは、組織がこの運用上の問題に対処するのに役立ちます。チームが非効率な調整や確認を行わなくて済むよう、データに関する意思決定を行うのは誰か、その決定がどのように明確なルールとなるかを定義します。そして同時にガバナンスがドメイン、プラットフォーム、AIワークロード全体でどのように拡張されていくかということも明確にします。このフレームワークは、データに関するポリシーと現場で実際に起こることを結びつけ、適切なデータ管理を行うための構造です。
このガイドでは、データガバナンスフレームワークの役割、多くのガバナンスプログラムで必須とされる要件、大まかなフレームワークの違いを紹介します。また、組織が自社のアーキテクチャ、業界、成熟度レベルに合ったフレームワークを選び、実装する方法についても解説します。
データガバナンスフレームワークとは
データガバナンスフレームワークとは、組織のあらゆる環境において、データをどのように管理、保護、活用し、そしてその効果をどう評価していくかを定義するための構造化されたモデルのことです。通常これには、データの作成から保持または廃棄までのライフサイクルを管理するために、ガバナンスの原則、役割、ポリシー、標準、プロセス、コントロール、採用する技術基盤やツール、評価指標が含まれます。
フレームワークは、ポリシー、標準、またはコントロールそのものを指すわけではありません。フレームワークは、組織がデータをどのようにガバナンスするかについての包括的なモデルです。ポリシーや内部標準、手順、および制御方法はこのフレームワーク内に組み込まれ、組織がそれを一貫して適用できるようにします。ISO規格をはじめとする公的な外部標準を参考に自社のルールを策定したり、その標準規格自体をガバナンスのフレームワークとしてそのまま採用する場合もあります。
- ポリシーとは、例えば、どのような権限を持つ者が規制対象の顧客データにアクセスできるかといった、組織としての基本方針を宣言するものです。
- 内部標準では、その方針を具体的にどう実務に適用するかを定義します。顧客ID、取引記録、または医療機関の場合は保護対象医療情報の分類ルールなどの具体的な分類ルールがこれに該当します。
- コントロールでは、ロール(役割)ベースのアクセス制御(RBAC)、ダイナミックマスキング、暗号化、アクセスレビュー、監査ログなどの要件を適用したり、検証を行います。
- 正式な外部標準は、セキュリティ、プライバシー、またはデータ管理に関するISO規格といった公的なものを指します。これらは組織のフレームワーク形成やフレームワークそのものとして役立つ場合があります。
運用構造の欠如は多くのガバナンスプログラムが陥りがちな失敗なので、これらを理解しておくことは非常に重要です。
データガバナンスフレームワークの目的と価値
データガバナンスフレームワークがあることで、組織におけるチーム、システム、データドメイン全体で一貫したガバナンスの意思決定が可能になります。フレームワークがない場合、たとえば顧客データチームの定義管理の方法と財務チームのレビュー方法が異なっていたり、AIチームではトレーニングデータのログをプロジェクトメンバー以外の誰も確認できないスプレッドシートで追跡しているといった状況に陥る可能性があります。
このようなことが起きないように、データガバナンスを局所的なものではなく、組織全体の運用モデルへと変えるのがフレームワークの価値です。具体的に、組織にとって以下の点で役立ちます。
- データドメイン、テーブル、メトリクス、ポリシー、例外に対するアカウンタビリティを割り当てる
- 品質、オーナーシップ(所有権)、分類、データリネージ、リスクに関する共通言語を定義する
- ガバナンス業務をコンプライアンス、アナリティクス、AI、セキュリティ、運用上の目標と一致させる
- データプロダクト、パイプライン、アプリケーション、モデル全体で、より一貫したコントロールの適用をサポートする
- 監査目的で、アクセスに関する決定、ポリシーの例外、修復アクティビティを文書化する
- ガバナンスの成果物が存在するかどうかだけでなく、ガバナンスが向上しているかどうかの効果測定を行う
また、フレームワークは、ガバナンスチームが陥りがちな2つの状況を回避するのにも役立ちます。1つは、ポリシーの文書化がゴールとなりガバナンスそのものが正しく実施されていない状態、もう1つは、誰が意思決定を行うかを明確にせずにデータ資産をカタログ化してしまっている状態です。最も有効なフレームワークは、運用モデルを技術環境に結び付けます。これによりデータスチュワードの承認、分類タグ、リネージパス、アクセスポリシーまでを一貫して連携させ、実際に組織のガバナンスを機能させます。
“The true driver of AI and data governance is already in place — customers require it.”
Jennifer Belissent
Principal Data Strategist, Snowflake
データガバナンスフレームワークの主要な構成要素
データガバナンスフレームワークは、それぞれのモデルによって使われる用語こそ異なりますが、含まれる基本的な構成要素はどれもほぼ共通しています。モデルは組織によってそれぞれですが、一般的にフレームワークを運用するにあたって通常、以下の領域を定義する必要があります。
ガバナンスの戦略と原則
フレームワークでは、データガバナンスが存在する理由と、それがサポートするビジネス成果を説明する必要があります。これには、コンプライアンスの遵守、信頼できるアナリティクス、AIの準備状況、データプロダクトの導入、オペレーショナルレジリエンス、セキュアなデータ共有などが含まれます。ポリシーがすべてのシナリオを網羅していない場合、原則チームに意思決定が一任されます。たとえば、ある機密属性をマスクするか、トークン化するか、モデルの特徴量セットから除外するか、あるいは承認されたビューを通じてのみ利用可能にするか、といった判断が必要になる場合があります。
役割と責任
ガバナンスは、明確なアカウンタビリティに依存します。フレームワークでは、データオーナー、データスチュワード、データカストディアン、ガバナンス評議会メンバー、セキュリティチーム、プライバシーチーム、プラットフォームチーム、ビジネス関係者など、それぞれの責任を定義する必要があります。また、新しいデータドメインを承認する担当者、メトリクス定義の競合を解決する担当者、データ保持ルールやアクセスルールの例外を許可する担当者など、意思決定の権限も定義する必要があります。
ポリシー、標準、手順
ポリシーでは、データがどのように作成、分類、アクセス、使用、共有、保持、廃棄されるかに関するルールを設定します。標準では、承認された分類レベル、命名規則、品質のしきい値、メタデータ要件、保持カテゴリ、アクセスモデルなどを細かく定義することで、これらのルールを具体化します。手順では、新しいデータプロダクトのオンボーディング、アクセスリクエストの確認、品質問題の解決など、チームがどのように業務を遂行するかを規定します。
データ品質管理
フレームワークでは、データ品質をどのように測定、監視、修復するかを定義する必要があります。一般的な評価基準には、正確性、完全性、一貫性、適時性、妥当性、一意性などがあります。実際の運用では、重要なデータ要素の特定や品質ルールの割り当て、エラーの監視を行います。さらに、ソースデータの更新が止まったせいで収益メトリクスの数値がおかしくなった、といったトラブル時に、誰が責任を持って原因を調査するのかまでを明確に定義しておく必要があります。
データ分類とメタデータ管理
データ分類とメタデータは、そのデータが持つコンテキストを明確にし、適切かつコンプライアンスに準拠したデータ活用を強力にサポートします。フレームワークでは、組織が機密性やビジネス上の意味、オーナーシップ、リネージ、鮮度、使用状況、ポリシーのコンテキストをどのように把握するかを定義する必要があります。テーブル名だけでは、列に顧客IDが含まれているかどうか、データがAIトレーニング用に承認されているかどうか、または前回のレポートサイクル以降にメトリクスの定義が変更されたかなどをユーザー側が把握できないためです。
データのプライバシー、セキュリティ、アクセス制御
ガバナンスフレームワークは、ポリシーの意図をセキュリティ上の制御に結び付ける必要があります。これには、IDおよびアクセス管理、最小権限アクセス、暗号化、マスキング、行レベルセキュリティ、監視、保持コントロール、プライバシー要件へのコンプライアンスが含まれます。また、フレームワークでは、アクセスのリクエスト、承認、レビュー、廃棄の方法も定義する必要があります。
データライフサイクル管理
データには、作成、取り込み、変換、ストレージ、使用、共有、保持、アーカイブ、削除という一連のライフサイクルがあります。ガバナンスフレームワークでは、データが上記の各ステージをどう移動するか、どの保存ルールが適用されるか、リーガルホールド(法的理由によるデータ削除の一時停止)にどう対応するか、そしてポリシー通りにデータが保存または廃棄されたことを証明する証拠として何を残すかを定義する必要があります。
プライマリデータおよびリファレンスデータ管理
ガバナンスプログラムには、顧客、製品、従業員、ベンダー、所在地、財務口座などの主要なエンティティに対する一貫した定義が必要です。プライマリデータおよびリファレンスデータ管理とは、信頼できるデータソースの選定、重複データ統合時の採用基準(サバイバーシップルール)、そしてデータのスチュワードシップを整備することです。これにより、社内の各システムやレポート間で、顧客や商品といった重要なデータの一貫性が完全に保たれるようになります。
データアーキテクチャと統合の標準
フレームワークは、組織のアーキテクチャと切り離すのではなく、それに適合させる必要があります。これには、モデリング、取り込み、変換、相互運用性、APIの使用、データ共有、セマンティックレイヤー、データプロダクトの設計に関する標準が含まれます。アーキテクチャを標準化することで、チームはすべてのパイプラインやドメイン境界をゼロから設計するのではなく、一貫したパターンを適用できるようになり、結果的にガバナンスの拡張につながります。
コンプライアンス、リスク、監査管理
ガバナンスフレームワークでは、どのように規制上の義務や内部統制、リスク、例外、監査証拠を追跡するかを定義しなければなりません。これは、運用上コントロールが存在しているだけでなく、それらが意図したとおりに機能している証明を求められるような業界において特に重要です。
ツールとテクノロジー
導入ツールなどのテクノロジーは、単独でガバナンスを構築することはできませんが、ガバナンスの運用をスケールするのに不可欠です。データカタログやリネージツール、アクセスガバナンスシステム、データ品質プラットフォーム、ポリシーエンジン、監視ツールといったテクノロジーツールは、メタデータの取得やコントロールの適用、問題の表面化、ログの保存を行うことができます。フレームワークでは、どのシステムが信頼できるソースとなるメタデータを保持しているかを明確にすべきです。さらに、ガバナンス上の決定事項が、実際のシステム制御へと自動的に反映、同期される仕組みを定義する必要があります。
メトリクスと継続的な改善
フレームワークには、ガバナンスが機能しているかどうかを示す評価基準を含める必要があります。役立つメトリクスとして、データカタログや分類のカバレッジ、データ品質スコア、アクセスレビューの完了率、例外の経過日数、問題解決時間、ポリシーのコンプライアンス率、所有者が割り当てられている重要なデータ要素の割合などが挙げられます。
こうした各種の構成要素を整理するシンプルなアプローチとして、ガバナンスの仕組みを人(体制)、ポリシー(方針)、プロセス(運用)、データ統制(コントロール)、テクノロジー(システム)、評価指標の6つのコア領域に分類して捉える方法があります。
データガバナンスフレームワークの例
それぞれのフレームワークによって、解決する主眼課題は異なります。例えば、知識体系として網羅的にまとめたもの、組織のレベルを測る成熟度モデル、基盤設計に特化したアーキテクチャ手法もあれば、クラウド環境、学術研究、あるいはコンプライアンスへの対応に最適化されたフレームワークも存在します。
| フレームワーク | 主な焦点 | 最適な対象 |
|---|---|---|
| DAMA-DMBOK | 包括的なデータ管理の知識体系 | データ管理の分野全体にわたる幅広いカバレッジを必要とする大規模な組織 |
| COBIT
|
エンタープライズITのガバナンスと管理 | データガバナンスをITガバナンス、コントロール、リスク、監査に結び付けたい組織 |
| DCAM | データ管理機能の成熟度 | 成熟度評価と機能改善を必要とする金融サービスやその他の規制対象組織 |
| TOGAF | エンタープライズアーキテクチャの連携 | データガバナンスをアーキテクチャ、トランスフォーメーション、オペレーティングモデルの業務に組み込む組織 |
| FAIR原則 | 検索可能、アクセス可能、相互運用可能、再利用可能なデータ | 研究、科学、官公庁・公的機関、データ共有の環境 |
| CDMC | クラウドデータ管理機能 | クラウドデータ管理のコントロールを必要とする、クラウドファースト、ハイブリッドクラウド、マルチクラウドの組織 |
DAMA-DMBOK
DAMA-DMBOKとは、組織がデータ管理の専門領域を体系化し、ビジネス戦略、コンプライアンス、そしてテクノロジーの進化に適応させるための、広範なデータマネジメントの知識体系です。DAMA(国際データマネジメント協会)は、DMBOKを戦略、ガバナンス、品質、メタデータ、アーキテクチャなどの領域全体でデータ資産を構造化、統制、最適化するためのリソースであると説明しています。
DAMA-DMBOKは、特定の細かな監査、セキュリティ基準を満たすことよりも、組織全体でデータ管理の包括的な全体像を網羅的に築きたい場合に極めて有効です。また、チームにおけるデータ管理プログラム範囲の定義や、ギャップの特定、ガバナンス、アーキテクチャ、品質、スチュワードシップなど、各チーム間での共通言語を作成するのにも役立ちます。
COBIT
ISACA(情報システムコントロール協会)が提供するCOBITは、エンタープライズ情報およびテクノロジー向けのガバナンスフレームワークです。このフレームワークは、ITガバナンス、リスク管理、統制目標、そして監査実務を一元化し、相互に連動させたい組織に最適です。ISACAはITガバナンスから監査、リスク、プライバシー、セキュリティに幅広く焦点を当てています。そのため、データガバナンスをエンタープライズITの監視と密接に連携させる必要がある場合は、COBITが適しています。
また、COBITは、すでに確立されたコントロール環境にデータガバナンスを適合させる必要がある場合に役立ちます。たとえば、金融機関においては、COBITに準拠したガバナンスプロセスを導入することで、データへのアクセス権レビュー、システムの変更管理、コントロールテスト、そして監査ログの収集までを一元的に連動して管理できるようになります。
DCAM
EDM Councilによって開発されたデータ管理機能評価モデル(DCAM)は、データ管理機能を評価および改善するために最適なフレームワークです。EDM CouncilはDCAMを、成熟したデータ管理分野を確立、維持、改善するためのフレームワークであると説明しており、現在のバージョンではAIとクラウドのサポートが拡張されています。
DCAMは、データの成熟度評価やケイパビリティ組織能力の測定、そして客観的なエビデンスに基づく確実な業務改善を重視しているため、金融サービスをはじめとする規制の厳しい業界で特に高く評価されています。具体的には、組織におけるガバナンスの強みと運用のバラつきを明確に浮き彫りにし、数あるギャップの中からどれを最優先で解決すべきかのロードマップを導き出します。
TOGAF
The Open Groupによって策定されているTOGAFは、エンタープライズアーキテクチャの方法論およびフレームワークです。The Open Groupが策定したTOGAFは、エンタープライズアーキテクチャを設計するための網羅的な手法と、それを支えるツール群からなるフレームワークです。現在、数多くの大企業やグローバル組織で世界標準として採用されています。
TOGAFは狭義のデータガバナンスフレームワークではありませんが、ガバナンスをアーキテクチャに組み込む必要がある場合に役立ちます。TOGAFを活用することで、データガバナンスをビジネスアーキテクチャ、アプリケーションアーキテクチャ、データアーキテクチャ、テクノロジーアーキテクチャと連携させることで、システムの設計や変更にガバナンスの意思決定を反映させることができます。
FAIR原則
FAIR原則は、データを検索可能、アクセス可能、相互運用可能、再利用可能にするためのモデルを定義します。この原則は、特に科学や研究の分野においてデジタル資産の管理とスチュワードシップを向上させるために2016年に公開されました。
FAIRは、責任あるデータ共有と再利用を目標とする場合に特に役立ちます。研究機関、ヘルスケア組織、または官公庁や公的機関では、データプロダクトのメタデータ、永続的識別子、相互運用性標準、および再利用条件を改善するためにFAIRが活用されています。
CDMC
EDM Councilが開発したCloud Data Management Capabilities(CDMC)は、クラウド環境におけるデータの管理と制御に焦点を当てています。EDM CouncilはCDMCを、クラウドおよびマルチクラウド環境でデータを安全に管理するためのフレームワークと説明しています。このモデルには監査可能な証拠、スコアリング、クラウド固有の制御機能が含まれています。
CDMCは、組織がガバナンスの効いたデータワークロードをクラウド、ハイブリッドクラウド、またはマルチクラウドアーキテクチャに移行する場合に役立ちます。CDMCにより、チームはデータガバナンスとアカウンタビリティ、カタログ化と分類、データアクセシビリティ、保護、プライバシー、ライフサイクル管理、および技術アーキテクチャの制御を評価できます。
データガバナンスフレームワークの評価と選び方
フレームワークを選ぶ際は、まず組織の運用上の課題を理解することから始めます。 フレームワークと組織の適合性を評価するには、以下の基準を使用します。
| 評価基準 | 確認すべきポイント |
|---|---|
| ビジネス目標 | 組織における主たるニーズはコンプライアンス、アナリティクスの信頼性、AI対応、クラウド移行、データ共有、エンタープライズアーキテクチャの連携のうち、どれなのか |
| 業界のコンテキスト | そのフレームワークは、金融サービス、ヘルスケア、政府、研究、または官公庁や公的機関のデータに対する業界固有の要件をサポートしているか |
| ガバナンスの成熟度 | 組織は基本的な役割とポリシーを必要としているのか、それとも、成熟度の効果測定、制御テスト、最適化を必要としているのか |
| アーキテクチャの適合性 | そのフレームワークは、クラウド、ハイブリッドクラウド、マルチクラウド、オープンテーブルフォーマット、アプリケーション、AIワークロードなど、組織のデータ資産を反映しているのか |
| 制御要件 | そのフレームワークは、データのアクセスポリシー、マスキング、分類、リネージ、保持など、組織が一貫して運用可能な制御に変換できるか |
| 証拠のニーズ | 組織は、承認、例外、品質チェック、アクセスレビュー、ポリシー適用の監査可能なログ(証拠)を必要としているか |
| 実装の労力 | 組織は、現場の人材、テクノロジー、経営陣の支援を活用して、フレームワークを実際に運用できるか |
| ツールの連携 | 既存のカタログ、リネージシステム、ポリシーエンジン、データ品質ツール、プラットフォーム制御は、フレームワークをしっかりサポートできるか |
多くの組織はフレームワークを組み合わせています。たとえば、ある企業は幅広いデータ管理の範囲にDAMA-DMBOKを、成熟度評価にDCAMを、クラウド制御にCDMCを、AIリスクガバナンスにNIST AI RMFなど、課題やニーズに応じてを複数のフレームワークを使用していることもあります。
データガバナンスフレームワーク実装の6つのフェーズ
データガバナンスフレームワークは、日々のデータ管理方法を変革する場合に最も有用です。最初は、まず焦点を絞って一部から実装を開始し、運用モデルの実用性を証明してから拡大していきましょう。
フェーズ1:ガバナンスのリーダーシップの確立
まず、経営陣の支援を確保し、意思決定構造を定義することから始めます。これには通常、ガバナンス評議会、ドメインレベルのデータオーナー、データスチュワード、プラットフォームオーナー、セキュリティおよびプライバシーのステークホルダー、ビジネス代表者が含まれます。
RACIマトリックス(責任分担表)では、各ガバナンスプロセスにおいて誰が実行責任(Responsible)、説明責任(Accountable)、相談対応(Consulted)、報告受領(Informed)を担うかを文書化します。たとえば、データオーナーは顧客データドメインに対する説明責任を負い、スチュワードはメタデータの品質に対する実行責任を負う場合があります。また、アクセスポリシーの設計についてセキュリティチームに相談したり、指標の定義が変更された際に下流のアナリティクスチームに報告したりすることが考えられます。
フェーズ2:データインベントリの作成と分類
次のステップは、最も重要なデータを特定することです。重要なテーブル、ビュー、データプロダクト、パイプライン、レポート、AIトレーニングデータセット、および外部と共有されているデータ資産のインベントリを作成します。次に、機密性、ビジネス上の意味、規制との関連性、所有権、使用状況、およびライフサイクルの要件に基づいてデータを分類します。
このフェーズでは、価値が高く、リスクの高いデータから優先していきます。具体的には顧客ID、財務報告データ、規制対象のヘルスケアデータ、モデルトレーニングデータ、および経営陣レベルのメトリクスは一般的にリスクの低い運用ログよりも、緊急性の高いガバナンスを必要とします。
よくある落とし穴
多くのチームが、データのインベントリ作成や分類作業をせっかく完了させても、その成果をスプレッドシートに埋もれさせ、形骸化させてしまっているのが実態です。これではデータの可視化は達成できても、運用のアカウンタビリティまでは確立できません。これを解決するには、ある列に対して機密、規制対象、限定利用といったタグが付与されると、その分類に応じてデータのマスキングや行レベルのアクセス制御、承認ワークフロー、保存ルールの適用、監査ログの出力といった具体的な制御が自動的に実行される仕組みが必要です。
フェーズ3:ポリシー、標準、および運用手順の定義
組織は、まずどのデータをガバナンスの対象とするかを把握したら、ルールを定義していきます。ポリシーでは、アクセス、分類、品質、保持、共有、許容される使用用途、AIの使用、および例外処理を明確にしなければなりません。標準では、これらのポリシーを、必須のメタデータフィールド、承認された分類レベル、命名規則、データ品質のしきい値、保持カテゴリなどの具体的な要件に変換していきます。
運用手順では、チームがガバナンス業務をどのように実行するかを明確にします。たとえば運用手順では、新しいデータプロダクトの承認プロセスや、公開前に必須となるメタデータ項目、さらにはアクセスリクエストがどのような承認フローで回覧および審査されるか、などを定義します。
フェーズ4:ガバナンスコントロールと技術的適用の実装
フレームワークの実装には、技術的な制御が必要です。この段階で、分類タグ、アクセスポリシー、マスキングポリシー、行レベルのコントロール、暗号化、リネージ、データ品質モニタリング、および監査ログが、本格的にガバナンス環境の一部になります。
たとえばSnowflakeでは、ガバナンス機能はSnowflake Horizonカタログを通じてサポートされており、AIデータクラウドにガバナンス、検出、セキュリティ機能を組み込んで提供します。Horizonの目的は、様々な計算エンジンやデータフォーマットを相互に連携させ、メタデータやアクセス権限の管理画面を一元化することです。これにより、対応しているデータ共有ワークフロー全体に対して、ガバナンスルール(メタデータ)をそのまま適用および拡張できるようになります。
ここでの現場における目標は、ガバナンスの意図とプラットフォーム動作間のギャップを縮めることです。列が機密としてタグ付けされていたら、手動でのポリシーを適用するのではなく、その分類に合わせたアクセスおよびマスキングコントロールが行われるべきでしょう。
フェーズ5:ガバナンスコントロールのパイロットと検証
ガバナンスを企業全体に拡張する前に、1つまたは2つの価値の高いドメインでフレームワークのパイロットを実施しましょう。パイロットは、まず重要度の高い顧客データ、財務報告、規制対象のヘルスケアデータ、またはAIトレーニングデータパイプラインに焦点を当てるのがいいでしょう。
パイロットでは、ロールが明確であるか、メタデータが完全であるか、ポリシーが適用されているか、品質の問題が正しくルーティングされるか、および監査ログを生成できるかをテストする必要があります。また、フレームワークが複雑すぎる箇所、スチュワードシップ業務のリソースが不足している箇所、および技術的なコントロールの調整が必要な箇所も明らかにしていきます。
フェーズ6:企業規模での拡張と継続的な最適化
パイロットの完了後、追加のドメイン、データプロダクト、およびビジネスユニット全体にフレームワークを拡張します。拡張する際には、トレーニング、オンボーディングのプレイブック、自動化、定期的なメトリクス、およびフィードバックループを含めます。
データ環境は変化するため、継続的な改善が重要です。新しいアプリケーション、新しいAIユースケース、新しい規制、新しいクラウドサービス、および新しいビジネス定義はすべて、ガバナンスのギャップを生み出す可能性があります。成熟したフレームワークを作り上げることで、チームは信頼が損なわれる前に各ギャップを検出できます。必要に応じてロールやポリシー、コントロール、メトリクスなどを調整していきましょう。
実装のタイムライン
実装のタイムラインは、組織の規模、規制の負担、データの複雑さ、および成熟度によってそれぞれ異なります。多くの場合、目安は次のようになります。
| フェーズ | 一般的な期間 | 主な成果物 |
|---|---|---|
| ガバナンスのリーダーシップの確立 | 4〜6週間 | スポンサーシップ、ガバナンス評議会、ロールの定義、RACIマトリックス |
| データインベントリの作成と分類 | 6〜8週間 | 重要なデータのインベントリ、分類モデル、優先ドメイン |
| ポリシー、標準、および運用手順の定義 | 4〜6週間 | ガバナンスポリシー、標準、運用手順 |
| ガバナンスコントロールの実装 | 8〜12週間 | アクセスルール、タグ、マスキング、リネージ、品質チェック、監査ログ |
| コントロールのパイロットと検証 | 6〜8週間 | パイロット結果、コントロールの検証、修復計画 |
| スケーリングと最適化 | 継続的 | エンタープライズへのロールアウト、メトリクス、継続的な改善のケイデンス |
最初の90日間は、エンタープライズ全体におけるガバナンスの完成度にこだわるよりも、目に見える進捗に焦点を当てて進めていくのがよいでしょう。初期段階で目に見える成果を上げるには、重要なデータドメインへのオーナーの割り当て、機密列の分類、一部の承認済みメトリクス定義の公開、高リスクデータへのアクセスレビュー導入、そしてカバレッジや未解決課題を可視化するガバナンスダッシュボードの作成などが有効です。
ガバナンスの設計や浸透にはツールの導入と同じくらい運用の変更が必要になるため、エンタープライズ規模でガバナンスが成熟するには長い時間がかかると考えておきましょう。ガバナンスは、チームによるデータ製品の設計から、アクセスの承認、パイプラインの構築、データの共有、AIシステムをデプロイするまでの全体的なプロセスの一部になる必要があります。
AIガバナンスフレームワークとデータガバナンス
AIガバナンスの成否は、データガバナンスにかかっています。なぜなら、AIモデルの挙動は、システムのトレーニングやチューニングから、情報検索、評価、監視に至るまで、あらゆるフェーズで利用されるデータそのものによって形作られるからです。モデルレジストリを活用すれば、AIモデルのバージョンや評価結果を追跡することは可能です。しかし、トレーニングデータがそのユースケースに承認されたものか、機密データの列が除外されているか、リネージが完全か、あるいは抽出された特徴量に、過去の偏ったバイアスが反映されていないかといった、データ自体の健全性に関する問いにモデルレジストリが答えることはできません。
従来のデータガバナンスフレームワークは、いくつかの方法でAIワークロード向けに拡張されています。DAMA-DMBOKに準拠したプログラムであれば、従来のメタデータ管理やデータ品質のチェック、データスチュワードシップの仕組みをそのままAI領域へと応用および拡張できます。具体的には、AIの学習データの出所の追跡や、特徴量の定義、さらには承認済みAI用データセットの管理などを、既存の枠組みに組み込むことが可能です。COBITの手法に基づいたガバナンスを導入すれば、AI固有の制御ルールを、企業のリスク管理、監査プロセス、そしてアカウンタビリティの明確化へと一元的に連動させることが可能になります。DCAMやCDMCを活用すれば、プロジェクトチームは自社のクラウドにおけるデータコントロールや運用レベルが、AIワークロードの要求水準を満たしているかどうかを正確に評価、判断できるようになります。
最近では従来のフレームワークの拡張に加えて、AI固有のフレームワークも開発されています。NIST AI Risk Management Frameworkは、AIシステムを運用する組織を対象に設計から開発、実際の利用、そして評価に至るすべてのフェーズで、リスクへの適切な対処とAIの信頼性向上を総合的に支援するための枠組みです。つまり、データガバナンスチームは従来のデータコントロールに留まらず、モデルガバナンスやMLリネージ、トレーニングデータの出所、説明可能性、バイアス監視、さらには責任あるAIの実践やアルゴリズムのアカウンタビリティにまで至る一連の要件を、相互に連携させて運用していく必要があります。
データ中心のAIガバナンスアプローチでは、AIモデルを本番環境へデプロイする前に、以下のような具体的な検証を行います。
- どのデータセットがモデルのトレーニング、チューニング、またはグラウンディングに使用されたのか
- 誰がこのユースケースのためにそれらのデータセットを承認したのか
- どのリネージパスが、ソースデータと特徴量、プロンプト、埋め込み、または検索インデックスを結び付けているか
- どの機密属性またはプロキシが含まれ、除外され、または変換されたか
- どの品質ルール、ドリフトチェック、およびバイアス監視プロセスが適用されるか
- どの出力結果に、人間によるレビュー、開示、または監査ログが必要か
これらの検証により、AIガバナンスが運用可能なものになります。これらは同時に、データガバナンスの枠組みが単なるレポートやダッシュボードの作成で終わってはならない理由でもあります。これからのガバナンスは、データがAIモデル、自律型エージェント、各種アプリケーションへと流れ込み、自動化された意思決定に利用されるその全プロセスまでを完全に把握し、管理下に置く必要があります。
業界固有のフレームワークガイダンス
業界が異なれば、データガバナンスフレームワークを使用する理由も異なります。フレームワークの構成要素自体は近いかもしれませんが、コントロールの重点は変わります。
金融サービス
金融サービスは多くの場合、データ品質、リネージ、所有権、リスクレポート、および規制コントロールに関する明確なログを必要とします。一般的に、DCAMはデータ管理の成熟度と機能評価を重視するため、金融業界と親和性が高いです。また、銀行向けのリスクデータ集計とリスクレポートの原則に焦点を当てて策定されたBCBS 239に準拠したガバナンスを実践することもできます。
金融業界のデータガバナンスでは主に、重要なデータ要素、リスクレポートのリネージやデータ品質のしきい値、アクセス制御、データ保持要件、および監査ログが中心になります。そのため、金融サービスにおけるフレームワークは、誰がリスクメトリクスを所有しているか、それがどこから来てどのように変換されたか、そしてそのデータが規制レポートに適しているかといった点を明確に定める必要があります。
ヘルスケア・ライフサイエンス
ヘルスケア組織ではプライバシーとセキュリティにおける義務を遵守した上で、保護対象医療情報、請求データ、臨床データ、研究データ、および運用データをガバナンスする必要があります。米国ではHIPAAがプライバシーとセキュリティの要件を形成していますが、それに加えて研究データの共有や相互運用性、再利用にはFAIR原則が活用されることが多くあります。FAIR原則は、データの持つコンテキストを失うことなく人間や機械がそのデータを発見して再利用できるようにしたい場合に役立ちます。
ヘルスケア分野のガバナンス体制においては、データの分類、患者の同意、アクセス制限、匿名化、データ保持、およびデータ共有に関する一連の規則を、臨床、運用、研究データが扱われる実システムへとシームレスに組み込み、連動させることが不可欠です。
政府および官公庁・公的機関
官公庁や公的機関では、透明性、セキュリティ、記録管理、オープンデータ、コンプライアンスの全てを適切にサポートするガバナンスモデルを必要とします。たとえば、アメリカなら政府データをクラウドで処理する場合、FedRAMPへの対応が不可欠となる一方、一般公開データプログラムでは、メタデータや公開基準、再利用ガイダンスなどの整備が主な要件となります。
こうした環境では、どのデータを公開できるか、どのデータにアクセス制限が必要か、公開するデータセットにどのメタデータを付随させる必要があるか、そしてコンプライアンス遵守、監査、公的なアカウンタビリティのためのログをどのように保存するかを、フレームワーク内で明確にする必要があります。
フレームワークの成熟度評価
成熟度の評価は、組織がガバナンスの運用状況を評価し、次に投資すべき領域を特定するのに役立ちます。評価にはシンプルな5段階のモデルを活用することで、成熟度の評価を単なる書類上のチェックにとどめず、進捗を可視化して必要に応じた改善につなげることができます。
| ステージ | 説明 |
|---|---|
| 初期 | ガバナンスがその場限りの対応(都度対応)になっているオーナーシップ、定義、アクセスルール、品質チェックがチームによって異なる |
| 管理された運用 | 主要なドメインにそれぞれ割り当てられたオーナー、基本的なポリシー、およびいくつかの反復可能なプロセスがある |
| 定義された運用 | ポリシー、標準、スチュワードシップの役割、技術的コントロールが文書化され、優先ドメイン全体に適用されている |
| 定量的に管理された運用 | パフォーマンスが品質スコア、アクセスメトリクス、課題解決、コントロールの証拠を通じて定量的に追跡され管理されている |
| 最適化された運用 | データプロダクトの設計からプラットフォームのコントロール、AIワークフロー、継続的改善プロセスまで、ガバナンスが一貫して組み込まれている |
なお、現在の段階を特定するために下記のような簡単な自己評価を行うことができます。
- 重要なデータ要素に、指名されたオーナーと承認されたビジネス定義があるか
- 機密性の高いテーブルや列が分類され、強制力のあるアクセスルールやマスキングルールが適用されているか
- ソースシステムからレポート、データプロダクト、AIモデルまでのリネージを追跡できるか
- データ品質に関する課題が、定義されたワークフローを通じて測定、割り当て、修正されているか
- アクセス決定、例外、ポリシー適用のための監査ログを組織が提示できるか
ほとんどの組織は、ドメイン間で成熟度にばらつきがある状態からスタートします。たとえば財務部門は財務レポートにおけるデータの取り扱いリスクが高いため、特に強力なデータ管理を行っているかもしれません。一方、マーケティングやプロダクト、AIの各チームにおいては正式なスチュワードシップが少なく、厳密な管理よりもスピード感を重視したデータプラクティスを行っている可能性があります。ガバナンスの目的は、一律の成熟度を全社に強いることではなく、ビジネス価値、リスク、および利用実態に基づいた適正な成熟度を担保することです。
ガバナンスの意思決定の構造化
データガバナンスのフレームワークが不可欠とされる理由は、意思決定の確固たる指針を組織にもたらしてくれるからです。これがないと、現場の判断はその場しのぎで一貫性を欠き、すべてが手作業となり、後から検証することも難しくなります。フレームワークがあることで、データドメインの所有者は誰か、どのポリシーがテーブルや列に適用されるか、アクセス制御をどのように徹底すべきか、どこでリネージを追跡する必要があるか、そしてガバナンスが実際に機能しているかを示すメトリクスは何なのかが明確になります。
ただし、適切なフレームワークであっても、組織の判断に代わるものではありません。DAMA-DMBOK、COBIT、DCAM、TOGAF、FAIR、CDMCはそれぞれ、ガバナンスの課題の異なる部分をカバーしており、多くの組織がそれぞれの業界、アーキテクチャ、成熟度に合わせて複数のモデルを適応させています。データがさまざまな共有プロダクトやクラウド環境、AIワークロードへと流動的に活用される現代において、ガバナンスフレームワークは、データの最新の利用実態に対して、常に一連のポリシーをリアルタイムに連動させ続ける手段をチームにもたらします。
重要なポイント
データガバナンスのフレームワークは、ガバナンスを単なる規則の寄せ集めから、組織全体で機能する実効的な責任の仕組みへと変革します。オーナーシップ、統制ルール、メタデータ、セキュリティ、および監査ログをシームレスに統合するフレームワークは、データ基盤からクラウド、AI環境まで、全社横断的なガバナンスの一貫した適用を強力に後押しします。それは同時に、データの可視性を高め、拡張性を担保し、運用におけるアカウンタビリティを確固たるものにするための最適解です。
よくある質問
データガバナンスフレームワークに関するよくある質問に、Snowflakeの専門家がお答えします。
データガバナンスフレームワークとデータガバナンスポリシーの違いは何ですか?
データガバナンスフレームワークは、データの扱いに関して組織で適用する一貫したデータガバナンスの運用モデル全体を体系化します。データガバナンスポリシーは、特定のルールや期待値を定めます。たとえば、フレームワークではデータのオーナーシップ、分類、アクセスガバナンス、効果測定のプロセスを定義します。一方、ポリシーでは、機密性の高い顧客データへのアクセスには事前の承認が必要である、といったルールを定めます。
どのデータガバナンスフレームワークが最適ですか?
すべての組織とって最適な単一のフレームワークがあるわけではなく、業界や組織におけるニーズ、データ管理における成熟度に合ったフレームワークを選ぶ必要があります。一般的に、幅広いデータ管理をカバーするにはDAMA-DMBOK、ITガバナンスと統制にはCOBIT、成熟度評価にはDCAM、エンタープライズアーキテクチャの連携にはTOGAF、再利用可能な調査と共有データにはFAIR、クラウドデータ管理にはCDMCが役立ちます。
組織は複数のデータガバナンスフレームワークを使用できますか?
はい。多くの組織が複数のフレームワークを組み合わせています。たとえば、ある企業ではデータ管理の範囲を定義するためにDAMA-DMBOK、成熟度を評価するためにDCAM、クラウド統制の指針としてCDMC、AIリスクを管理するためにNIST AI RMFを使用するなど、ビジネス課題や組織のニーズに合わせて2つ以上のフレームワークを組み合わせて使うことができます。この場合、組み合わせは現場で運用可能かつビジネス目標に沿ったものである必要があります。
データガバナンスフレームワークの実装にはどのくらいかかりますか?
実装にかかる時間は、データの複雑さ、規制要件、組織の成熟度、ツールの準備状況によって異なります。多くの組織は、数か月以内にリーダーシップを確立し、重要なデータを棚卸しし、コアポリシーを定義して、パイロット的に運用を行うことができます。一方で企業全体のガバナンスの成熟度を高めるには、継続的な投資と改善が必要です。
データガバナンスはAIガバナンスをどのようにサポートしますか?
データガバナンスは、 AIシステムのトレーニング、チューニング、検索、評価、監視に使用されるデータを管理することで、AIガバナンスをサポートします。これにより、チームはAIモデルをデプロイする前に、トレーニングデータの出所の文書化、MLリネージの追跡、機密データの分類、品質の監視、責任あるAIガバナンスを適用することができます。
データガバナンスの効果測定にはどのような測定指標を使用すべきですか?
代表的な測定指標としては、カタログやデータ分類の網羅率、データ品質スコア、アクセス権レビューの完了率、ポリシー準拠率のほか、課題解決までの期間、例外処理の滞留期間、リネージのカバー率、さらには重要データ要素に対するオーナー選定と定義承認の完了比率などが用いられます。
データガバナンス関連リソース
データガバナンス関連トピック
データガバナンスのあらゆる側面を深掘りします。


