SNOWFLAKE WORLD TOUR TOKYO(9月10日〜11日 東京開催)

今なら、一般登録に先駆けてセッション登録ができる早期登録者特典が得られます。

データマスキング:機密データを保護するためのガイド

組織が収集する機密情報が増えるにつれ、そのデータの保護は最優先事項となっています。データマスキングにより、チームはプライベートな情報や規制対象の情報を公開することなく、開発、テスト、アナリティクスに実際のデータを安全に使用できるようになります。

  • 概要
  • データマスキングとは
  • データマスキングを使用する場合
  • データマスキングの種類
  • 一般的なデータマスキングの手法
  • 関連リソース

概要

個人を特定できる情報、財務データ、知的財産などの機密データや社外秘データは、不正アクセスや悪用から保護する必要があります。しかし、業務の過程で、このデータはさまざまなシステム、パートナー、ユーザーと共有する必要があります。データマスキングは、機密情報を難読化して保護しつつ、適切に使用できるように設計された手法の集合体です。これらの手法でマスキングされたデータは、一次データセットにアクセスしない限り、元の値に遡ることはできません。

データマスキングとは

データマスキングとは、元のデータ値を難読化または隠蔽することで、機密データや社外秘データを保護するさまざまな手法を表す用語です。通常、アクセス制御、データの暗号化、監査などの他のデータセキュリティ対策と組み合わせて使用され、ライフサイクル全体を通じて機密データを保護するための包括的なアプローチを提供します。

データマスキングを使用する場合

患者の健康データから知的財産に至るまで、さまざまな種類のデータを不正使用から保護する必要があります。保護すべきデータセットを特定する際は、以下の点を考慮してください。

規制コンプライアンス

データマスキングは、GDPRやカリフォルニア州消費者プライバシー法(CCPA)などのデータプライバシー規制の対象となるデータを保護するために使用されます。データマスキングは、誰がデータにアクセスできるか、どのデータにアクセスできるか(列レベルまで)、データがどのように追跡されるかを詳細に制御できるため、コンプライアンスのための優れたツールです。

開発とテスト

開発やテストの段階では、エンジニア、開発者、テスターなどが機密データセットにアクセスするため、データは特に脆弱になります。  データマスキングにより、チームは機密情報を公開することなく、元のデータに近い現実的なテストデータを使用して作業できるようになります。 

トレーニングとデモンストレーション

データマスキングは、ソフトウェアのトレーニングやデモンストレーションによく使用されます。組織は、実際の顧客情報や専有情報を公開することなく、現実的なデータを使用することで、これらのエクスペリエンスを向上させることができます。 

消費者のプライバシーと信頼

顧客はデータプライバシーに関心を持っているため、規制要件の対象外であっても顧客データを保護することをお勧めします。  顧客が企業と取引を行う際、顧客は自らの個人情報が保護されると組織を信頼しています。この信頼が裏切られると、関係に深刻な損害を与えたり、関係が終了したりする可能性があります。組織は、データマスキングを使用し、その旨を伝えることで、顧客の信頼を維持することができます。 

データマスキングの種類

データマスキングには、静的と動的の2つの基本的な種類があります。データマスキング手法の選択は、データの機密性レベル、規制コンプライアンス要件、意図されたユースケースなど、さまざまな要因によって異なります。静的データマスキングとダイナミックデータマスキングの手法は、さまざまな環境やユースケースにわたって包括的なデータ保護を提供するために、相互を補完する形で併用されることもよくあります。

静的データマスキング

静的データマスキングとは、ストレージ内のデータのマスキングを指し、機密データを架空の値またはマスキングされた値に恒久的に置き換えることを伴います。その結果得られるデータセットには、実際のデータは含まれません。静的データマスキングは通常、開発、テスト、トレーニング環境などの非本番環境で使用されます。一般的に使用される手法には、置換、シャッフル、マスキングアウトなどがあります。

ダイナミックデータマスキング

ダイナミックデータマスキングは、正当なビジネス目的で、承認されたユーザーやアプリケーションがマスクされていない元のデータにアクセスする必要がある本番環境により適しています。ダイナミックなアプローチでは、機密データへのアクセスや取得時にリアルタイムでマスキングが行われます。これにより、承認されたユーザーは元のデータを表示できる一方、承認されていないユーザーにはマスクされたバージョンのみが表示されます。一般的に使用される手法には、マスキングアウトや暗号化などがあります。

オンザフライのデータマスキング

オンザフライのデータマスキングは、ダイナミックデータマスキングの具体的な実装アプローチの1つです。これは、データへのアクセスやクエリの実行時に、リアルタイムでマスキング処理が行われる手法を指します。通常は、データベースとクライアントアプリケーションの間にあるミドルウェアレイヤーやプロキシを介して実行されます。データへのアクセス時にマスキングルールが動的に適用され、マスクされたデータがクライアントアプリケーションに返されます。主な相違点は、オンザフライのデータマスキングではアプリケーションやデータベースに変更を加える必要がない点です。

一般的なデータマスキングの手法

さまざまなデータマスキング手法を展開できます。組織は多くの場合、データの機密性、規制要件、想定されるユースケース、必要な保護レベルに基づいて、複数の手法を組み合わせて使用します。ここでは、一般的なデータマスキング手法をいくつか紹介します。

  • 暗号化:暗号化とは、機密データをコード化された形式に変換する手法です。このデータは、関連する復号キーを使用した場合にのみ読み取ることができます。 
  • トークン化:トークン化では、機密データを、それ自体は意味を持たない代替データ(トークン)に置き換えます。必要に応じて元のデータにマッピングし直すことができます。
  • リダクションまたはマスキングアウト:リダクションとは、機密データをマスク文字や空白に置き換えることで、データを削除または難読化する手法です。この手法は、機密データの一部のみをマスクし、コンテキストの把握や識別のために残りの部分を表示したままにする、部分的なマスキングによく使用されます。
  • k-匿名化: k-匿名化は、データセット内の各レコードを、少なくともk-1個の他のレコードと区別できないようにする手法です。そのため、データを見た人は、それらの属性に基づいて個人を特定することはできません。同じように見える他の人が少なくともk-1人いるためです。これにより、データセット内で個人を特定することが困難になり、プライバシーの保護に役立ちます。
  • 差分プライバシー:差分プライバシーは、データセットに制御されたノイズやランダム性を追加する手法です。個人のプライバシーを保護しつつ、意味のある統計分析を可能にします。これにより、データセット内に任意の個人データが存在するかどうかが、データに対して実行されるクエリや分析の結果に与える影響を(数学的に)無視できるレベルに抑えることができます。
  • 仮名化:仮名化とは、識別可能なデータ(名前や識別子など)を仮名や人工的な識別子に置き換える手法です。この手法では、機密データと仮名を分離します。これにより、個人の特定を困難にしつつ、データの処理や分析を可能にします。
  • 平均化:平均化とは、個々の機密データの値を、レコードのグループやサブセットの平均値に置き換える手法です。この手法は、個々の値を難読化することでプライバシーを保護しつつ、データの全体的な統計的特性を維持できます。