SNOWFLAKE WORLD TOUR TOKYO(9月10日〜11日 東京開催)

今なら、一般登録に先駆けてセッション登録ができる早期登録者特典が得られます。

データ匿名化:機密データを保護するためのガイド

データプライバシーが規制要件であると同時に競争上の優位性にもなる中、組織は機密情報を責任を持って使用するためにデータ匿名化に注目しています。匿名化により、個人識別子を削除または変更することで、個人のプライバシーを保護しながらインサイトを引き出すことができます。

  • 概要
  • データ匿名化とは
  • 匿名化すべきデータの種類
  • 5つの一般的なデータ匿名化アプローチ
  • 関連リソース

概要

今日の顧客はプライバシーを重視しており、GDPRやCPRAなどの法律により、組織はデータプライバシーを優先しています。データ匿名化により、組織は機密情報を責任を持って使用できるようになります。データセットから個人を特定できる情報(PII)を変更または削除することで、機密データを安全に分析および共有できます。本記事では、データ匿名化の仕組みと、匿名化すべきデータの種類について説明します。また、5つの一般的なデータ匿名化手法を取り上げ、それぞれが個人のプライバシーを保護し、データプライバシー法へのコンプライアンスをサポートする仕組みをご紹介します。

データ匿名化とは

データ匿名化とは、個人のプライバシーを保護するために、データセットから個人を特定できる情報を変更または削除するプロセスです。その目的は、特定の個人に結び付けられないようにデータを変換することです。これにより、分析や調査などの目的でデータの有用性を維持しながら、匿名性を保つことができます。匿名化は、元のデータを人工データに置き換えたり、データセットの属性を元の形式とは異なる方法で再配置したり、実際のデータの代わりに機械生成された合成データを使用したりすることで実現できます。 

データ匿名化手法は、機密データが不適切に開示される機会を減らす上で重要な役割を果たしますが、包括的なデータプライバシーソリューションではありません。データ匿名化は、ロールベースのアクセス制御(RBAC)や属性ベースのアクセス制御(ABAC)などのデータアクセス制御を含む、他のデータプライバシー制御と組み合わせて使用する必要があります。データ暗号化は、機密データをセキュアにするために実装すべきもう1つの標準的な手法です。この手法では暗号化キーを使用します。これは数学的に導き出されたキーであり、保存中、転送中、またはアクティブな使用中のデータをサードパーティが読み取ることを防ぎます。

匿名化すべきデータの種類

匿名化するデータの最も一般的な種類はPIIです。例としては、連絡先情報、生年月日、クレジットカードのアカウント番号、社会保障番号(SSN)などが挙げられます。PIIには、識別可能な特徴を持つ写真や音声署名などの生体情報のほか、教育、雇用、財務、医療に関する情報も含まれます。データ匿名化は、組織の財務報告書や、調査結果や独自の製造プロセスなどの知的財産を含む、機密性を維持する必要がある他の種類のデータにも適用できます。

5つの一般的なデータ匿名化アプローチ

データ匿名化はさまざまな方法で実現できます。適切なデータ匿名化アプローチの選択には、組織のデータユースケースや目標、使用されるデータの種類、その機密性レベルなど、多くの要因が関係します。

データマスキング

データマスキングは、データ匿名化の中で最も頻繁に見られる種類の1つです。このプロセスでは、元のデータセットの値を、本物のように見えても元のデータとは実際のつながりがない人工データに置き換えることで、値を難読化または変更します。データマスキングにより、組織は元のデータセットへのアクセスを維持しながら、検出やリバースエンジニアリングに対して高い耐性を持たせることができます。データマスキング手法は、主に静的と動的の2つのカテゴリに分類されます。静的データマスキングは、ストレージへの保存や共有の前にデータにマスキングルールを適用します。そのため、時間の経過とともに変化する可能性が低い機密データの保護に最適です。ダイナミックデータマスキングでは、データがクエリまたは転送されるときにマスキングルールが適用されます。

データトークン化

データトークン化は、機密データを機密性のない代替物、つまりトークンに置き換えます。これらのトークンはランダムに生成されたデータ文字列であり、それ自体には実際の意味や価値はありません。トークンを生成したシステムのみが元の形式のデータにアクセスできるため、トークン化された機密データをリバースエンジニアリングすることはできません。

仮名化

仮名化は、名前やEメールアドレスなどの個人識別子を架空のものに置き換えます。この手法はデータの整合性を維持し、データが統計的に正確な状態を保つことを保証します。これは、モデルトレーニング、テスト、およびアナリティクスにデータを使用する際に重要な考慮事項となります。他の多くのデータ匿名化手法とは異なり、仮名化は、年齢、地理的場所、位置情報などの間接的な識別子には対処しません。これらの識別子は、他の情報と組み合わせることで特定の個人を特定するために使用される可能性があります。つまり、このアプローチを使用して保護されたデータは、引き続きGDPRのデータプライバシー規制の対象となります。

データスワッピング

データスワッピングは、元のデータと似つかないようにデータセットの属性値を並べ替えます。データベースの行内でデータを並べ替えることにより、このデータ匿名化手法は、再識別のリスクを最小限に抑えながら、データの統計的関連性を維持します。

合成データ

合成データは、ここで説明した他の手法とは異なる独自の方法で、データプライバシーの懸念に対処します。合成データは人工的に生成され、実際のデータレコードとの追跡可能なつながりはありません。合成データは機械によって生成されますが、元のデータセットを現実的に表現したものです。そのため、データプライバシーの懸念なしに、同様の目的で使用できます。