SNOWFLAKE WORLD TOUR TOKYO(9月10日〜11日 東京開催)

今なら、一般登録に先駆けてセッション登録ができる早期登録者特典が得られます。

基礎ガイド

データプライバシー:ガバナンスコントロールによる機密データの保護方法

データプライバシーの保護は、単にポリシーを文書化するだけで実現できるものではありません。組織におけるガバナンスコントロールは、アクセス、ストレージ、データ保持、コンプライアンス、AIの利用全体を通して適用されます。これが、個人データや機密データを保護するうえでどう役立つかを探っていきます。

データプライバシーの定義

データプライバシーとは、個人情報や機密情報がどのように収集、使用、共有、保持、削除されるかを制御し、それらの情報を保護する取り組みです。責任あるデータ利用のための明確なルールを組織に提供するとともに、個人情報への不正アクセス、悪用、漏洩から個人を保護することに重点を置いています。

データプライバシーのルールは、抽象的に見ればシンプルです。機密データは承認された目的にのみ使用し、適切に保存し、アクセスは許可されたユーザーだけに絞り、不要になったら削除するというものです。しかし、部門やチームを横断して相互に接続された大規模な組織のデータ資産全体で、これらのルールを共有して適用することは簡単なことではありません。そのような環境では、同じテーブルが複数の管轄区域にあるさまざまなビジネスユニットのアナリティクス、レポーティング、アプリケーションワークフロー、AIユースケースに同時にデータを提供している可能性があるためです。

だからこそ、データプライバシーはデータガバナンスコントロールによってしっかりと管理される必要があるのです。たとえ個人データが元のコンテキストに存在しなくなったとしても、組織は機密データを検出、分類し、アクセスや使用目的を制限したうえで保持ルールを適用し、下流でのデータ使用を追跡できなければなりません。

プライバシーコンプライアンスのためのデータガバナンスとは

データプライバシーは、責任あるデータ利用のための明確なルールを組織に提供するとともに、個人情報への不正アクセス、悪用、漏洩から個人を保護するのに役立ちます。エンタープライズデータ環境において、データプライバシーはポリシーと確実な運用の両方が必要です。プライバシーポリシーでは、顧客や会社の従業員、医療現場においては患者など個人のデータをどのように取り扱うべきかを定義できます。しかし、これらの要件は、データが保存、クエリ、共有、処理されるシステム全体でのコントロールに変換できなければ意味がありません。

これが、データガバナンスがデータプライバシーの基盤となる理由です。データガバナンスとは、データ資産全体を動かす運用の仕組みそのものです。具体的には、データの品質管理、所有権の明確化、リネージの追跡、アクセス制御、ライフサイクル管理、そして組織全体でのポリシーの徹底まで、すべてをカバーします。

ガバナンスの日々の運用は、組織がデータプライバシーに関する次のような実践的な疑問に答えるのに役立ちます。

  • 個人データはどこに存在するか
  • 誰がアクセスできるか
  • どのような用途が許可されているか
  • どのくらいの期間保持すべきか
  • 削除リクエストが届いた場合はどうなるか

たとえばデータカタログを使用すれば、顧客のメールアドレス列がどこに存在し、どのダッシュボードがそれを利用しているかをチームが把握できるでしょう。データプライバシーコントロールは、ここからさらに踏み込みます。その列をマーケティングに使用できるか、その用途は事前に顧客が同意したものであるか、誰が生の値を見ることができるか、データをどのくらいの期間保持すべきか、削除リクエストが届いた場合はどうすべきかなどを定義します。また、プライバシーガバナンスの適用範囲を正しく設定することは重要です。管轄区域やユースケースに応じて、GDPRCCPAHIPAAなどで適用される規制に準拠する必要があるからです。

データプライバシーに関するガバナンスポリシーの5つの主要要素

通常、データプライバシーポリシーは個人データや機密データを保護するために必要な制御を定義します。ほとんどの組織において、これは5つのコア領域(データ検出と分類、許可された用途、アクセスの適用、保持、監視)に対処することを意味します。

1.データの検出と分類

データプライバシーは、どのような個人データが存在し、どこに保存され、どの程度の機密性を持ち、環境全体でどのように移動しているかを把握することから始まります。チームが下流で適切な制御を適用できるように、ポリシーでは、個人データと機密データがどのように特定、分類、およびラベル付けされるかを定義する必要があります。この点は非常に重要です。なぜなら組織は、どこから来たか、または保存場所がわからないデータや、機密性の低い情報と区別できないデータをガバナンスの対象にすることはできないためです。

クイックヒント

アナリティクスやAIワークロード全体で機密情報を一貫してタグ付け、監視、保護できるように、プライバシーの取り組みはデータの検出と分類から始めます。アクセス、マスキング、保持の制御がデータレイヤーに直接適用されている場合、プライバシーポリシーの適用ははるかに容易になります。

2.目的の制限と同意

データプライバシーポリシーでは、個人データを収集する理由、許可される用途、およびそれらの用途をどのように文書化するかを定義する必要があります。また、同意の取得方法、同意の撤回の処理方法、およびチームが当初の正当な理由から外れた目的でデータを使用したい場合の対応についても規定する必要があります。

3.アクセス制御とマスキング

すべてのユーザー、ロール(役割)、またはワークロードが、個人データに対して同じレベルのアクセス権を持つべきではありません。データプライバシーポリシーでは、誰が生の値を表示できるか、いつデータをマスキングする必要があるか、および時間の経過とともにアクセスをどのように承認、レビュー、調整するかを明確にする必要があります。これらの制御により、プライバシー要件がデータレイヤーでの適用可能な制限へと変わります。

4.データの保持と廃棄

データプライバシーポリシーでは、個人データの保持期間、アーカイブのタイミング、および保持期間の終了時や削除依頼の受信時にデータをどのように削除するかを定義する必要があります。これにより、組織はデータ運用の仕組みをプライバシーの義務と一致させることができ、技術的に利用可能であるという理由だけで必要以上に長い期間個人データを保有するリスクを軽減できます。

5.監視と監査

データプライバシーポリシーでは、個人データへのアクセスの追跡方法、例外のレビュー方法、および組織による不正使用やポリシー違反の疑いを調査する方法を指定しなければなりません。組織は、監査、調査、またはインシデントレビューの際に、個人データへのアクセスがポリシーと一致していたことを証明しなければならないため、監視と監査可能性は重要です。

AI時代のデータプライバシー

AI利用の増加は、個人データの利用方法およびそれらがどう使われたかを追跡する両方の難易度が上がるため、データプライバシー侵害のリスクを高めます。たとえば、カスタマーサービスやトランザクション処理のために収集されたデータが、後にモデルトレーニングやプロンプトのグラウンディング、特徴量エンジニアリング、または自動化された意思決定支援のためなど、元々の利用用途を超えて提案されてしまう可能性があります。プライバシーポリシーでは、そのデータ利用が組織の規定や法規制で許可されているか、ユーザーの同意を得ているか、そしてAIシステムに投入される前にどのような制限を適用すべきか、を規定する必要があります。

なお、ポリシーを取り巻く環境において、これはすでに実践的なものとなっています。EU AI法は2024年8月1日に施行され、実装はすでに進行中です。特定のAIプラクティスの禁止は2025年2月に、汎用AIモデルの義務は2025年8月に有効化され、高リスクAIシステムの要件は2026年から2027年にかけて段階的に導入されます。IAPPの米国州トラッカーは、新たに発効されている州レベルのAIガバナンスの動向を継続的に文書化しています。

現代においてデータプライバシーとAIガバナンス両方の重要性はともに増してきており、組織は両方の分野を連携させていく必要があります。ガバナンスポリシーの策定者がなすべきことは、極めてシンプルです。AIガバナンスプログラムを策定する際は、AI特有の処理目的を考慮し、学習データや推論データの承認ルートを明確にする必要があります。さらに、機密性の高い学習データセットに対するリネージの記録を義務付け、必要に応じてデータの削除や再トレーニングを行う手順を確立することが求められます。 また、アナリティクスやレポートのワークフローと並行して、アクセス制限、マスキングルール、および監査要件がAIパイプラインにどのように拡張されるかを明確にすることも役立ちます。

機密データを保護するためにSnowflakeがプライバシー制御をどのように実現しているかをぜひ参考にしてみてください。

ガバナンスポリシーは、実効性のあるプライバシー対策でなければならない

プライバシーガバナンスは、データが実際に使用される方法と結びついている場合に機能します。ポリシーは、法務およびコンプライアンスチームが支持できる内容で、目的、アクセス、保持、および権利を定義する必要があります。さらに、データの分類やマスキングの適用、アクセス制限、発生した事象を記録するシステムに、それらの要件を関連付ける必要もあります。

データガバナンスは、これらの制御のための運用構造を作りだします。これにより、組織はプライバシー要件をデータ資産全体の一貫したルールとして運用できるようになります。これには、個人データの処理方法を現在再構築しているAIワークフローも含まれます。

重要なポイント

データガバナンスは、プライバシー要件をデータ資産全体で適用可能な日々の運用に落とし込みます。これにより、より広範なデータガバナンスプログラムの中で、個人データがどのように分類、アクセス、保持、および監視されるかを定義します。AIによって機密データの使用方法が拡大する中、組織はアナリティクスとAIワークフロー全体で一貫した制御を適用しつつ、AIのトレーニング、推論、および規制コンプライアンスを遵守するプライバシーガバナンスポリシーも必要としています。

よくある質問

データプライバシーに関するよくある質問に、Snowflakeのエキスパートが回答します。

データガバナンスは、品質、所有権、アクセス、ライフサイクル管理、アカウンタビリティなど、組織がデータをより広範に管理する方法を対象としています。一方データプライバシーは、特に個人データや機密データに焦点を当てており、データ提供者の同意、利用目的の制限、データ保持、データ主体の権利、プライバシーの適用に関する追加要件を含みます。

データプライバシーポリシーは通常、個人情報データの検出と分類、許可された利用用途、同意と目的の制限、アクセス制御、マスキング、保持と削除のルール、監視と監査の要件、プライバシーインシデントやポリシーの例外に対するエスカレーションパスを対象としています。

通常は、ポリシーと、分類、タグ付け、ロールベースのアクセス制御(RBAC)、マスキング、行レベルの制限、保持ルール、アクセス監視などの技術的な制御を組み合わせることで適用します。データが実際にクエリ、共有、処理されるシステムでプライバシールールを適用できるようにすることが目標です。

目的の制限など適用されるプライバシー原則や、EU AI法などの進化する規制の枠組みに沿って、トレーニングセット内で機密の個人データを除外、最小化、または仮名化すべきかどうかなどを組織が評価するのに役立ちます。

一元化により、マルチクラウド環境全体での一貫したポリシー適用がサポートされ、コンプライアンス上で何かを見逃すリスクを軽減し、データ主体アクセス要求(DSAR)への対応プロセスを簡素化できます。

データガバナンス関連リソース

データガバナンス関連トピック

データガバナンスのあらゆる側面を深掘りします。