差分プライバシーで機密データの価値を解放、一般提供開始
Snowflake AIデータクラウドは、何千ものお客様のデータを民主化し、データサイロを解消し、データシェアリングやコラボレーションのユースケースを後押ししてきました。多くのお客様は、Snowflakeのデータクリーンルームやデータガバナンス機能を使用して機密データを安全にコラボレーションするなど、Snowflakeを利用することでデータから大きな価値を引き出すことができました。しかし、これまで一部の機密性の高いデータは、規制要件やプライバシー上の懸念により立ち入り禁止となっていました。
これらの課題に対処し、機密性の高いデータさえも真に民主化するために、Snowflakeで差分プライバシーポリシーの一般提供を開始することを発表します。これらは、学術文献でプライベートデータアナリティクスのゴールドスタンダードとされている差分プライバシーと呼ばれる技術を基盤としています。差分プライバシーは、プライバシー保護に数学的な厳密さをもたらし、顧客がこれまで利用できなかったデータを活用できるようにします。Snowflakeのお客様は、データを活用すれば、組織や地域をまたぐデータシェアリングなどのコラボレーションユースケースを強化し、データ収益化による新たな収益源を生み出すことができます。
差分プライバシーとは
差分プライバシーとは、人、組織、場所などのデータセット内の個々のエンティティを保護し、機密情報漏洩のリスクを最小限に抑えるプライバシー強化技術です。機密データを扱う多くの重要なユースケースで導入されており、2020 U.S.Census Data ReleaseとApple’s user data collectionに関するもので、2023 AI Executive Orderでハイライトされています。
差分プライバシーでは、データコンシューマーはデータセット全体に対して分析クエリを実行できますが、行レベルのデータを見ることも、機密情報をリバースエンジニアリングすることもできません。保存データ、転送データ、使用中のデータを保護するデータプライバシー方法を補完します。
これを行うため、Snowflakeの差分プライバシーポリシーはクエリ結果に動的にノイズを追加します。追加されるノイズの量は、差分プライバシーの数学的手法によって決まるように、クエリの機密性に依存します。たとえば、クエリが広範な集計を計算する場合、ノイズの量は比較的少なく、無視できる可能性があります。クエリが小グループや1人の個人に関するものである場合は、ノイズが大きすぎるため、クエリの身元が分かりにくくなり、プライバシー攻撃から最重要データが保護されます。
通常、差分プライベートシステムの実装には多大な投資と専門知識が必要です。オープンソースの差分プライバシーライブラリはエンドツーエンドの差分プライベートではないだけでなく、実際のユースケースで差分プライバシーを有用なものにする機能を実装していない可能性もあります。しかし、Snowflake差分プライバシーポリシーは、このような欠点もなく、すぐに使用できます。
差分プライバシーはデータの価値を下げるのではなく解き放つ
差分プライバシーは、データの価値を下げるための既存のアプローチと比較して、大幅に改善されています。その一例として、ヘルスケア提供者への患者訪問のデータセットを使用するヘルスケア業界のユースケースを考えてみましょう。この例では、データプロバイダーはプライバシー規制に準拠するために患者のIDを保護する必要があります。
このユースケースの基本バージョンとして、各行が患者とヘルスケア提供者の間の1回の訪問を表すデータセットがあるとしましょう。差分プライバシーがない場合、データプロバイダーは通常、訪問日などの患者を特定できるフィールドをマスキングします。このようなフィールドは、月と日を削除し、年だけを残すなど、より粗いレベルでマスキングされます。このアプローチは、プライバシーの観点からは理に適っているように思えますが、データの価値を劇的に低下させます。たとえば、データコンシューマーはもはや、「条件Yに対して医薬品Xの服用期間は平均でどれくらいですか?」と尋ねることができません。
差分プライバシーにより、データプロバイダーはフィールドをマスキングしたり削除したりする必要がなくなるため、データコンシューマーはこのような詳細な質問をして有益な回答を得ることができます。
既存のアプローチと差分プライバシーの違いは、このユースケースのより現実的なバージョンを見るとさらに顕著になります。多くの場合、患者と医師の訪問などのデータセットでは、処方された状態や薬を列としてきれいに取得することはできません。その代わり、データには、訪問時の医師のメモを含む非構造化テキストフィールドがあります。
このようなフィールドの機密データを安全に編集するのは難しく、多くの場合、編集するとデータの価値が低下します。たとえば、メモフィールドには、多くの場合、患者の名前などの識別情報が含まれます。これは、メモフィールドには、医療機関のインテークシステムからすべてのフィールドをコピーして貼り付けるためです。
多くの場合、この情報を修正すると、診断された状態や処方された薬などの個人の健康情報も修正されます。これには、訪問ごとまたは患者ごとに機密ですが、データの主要な分析値も含まれます。切り捨てられるため、このようなユースケースは、現在一般的に使用されているプライバシー技術では実現できないことが少なくありません。
差分プライバシーは、このようなユースケースを可能にし、データコンシューマーが集約された非構造化テキストフィールドに対してクエリを実行できるようにします。アナリストや研究者が 、 「 薬のYに関する医師のメモを見ると、何パーセントの患者に副作用が現れていますか」と尋ね、答えを得ることができるようになりました。
あらゆる業界にまたがる差分プライバシーのユースケース
前の例はヘルスケアのユースケースに関するものですが、どの業界でも同じことが何度も見られます。以下にユースケースの簡単なサンプルを示します。
広告・メディア・エンターテイメント:広告の成果に関するイベントレベルのデータで個人を保護し、広告ターゲティング、最適化、効果測定に活用
金融サービス:コンシューマーバンキングデータの収益化、セントラルリスクブックなどの資本市場データのプロビジョニング、主要証券会社、資産管理
ヘルスケア・ライフサイエンス:電子カルテ、健康の社会的決定要因、ゲノムデータ、医療・薬剤請求、臨床試験などのデータセットを活用し、研究、データ収益化、新薬開発に活用
製造:予測的メンテナンスのための機器の製品テレメトリ
官公庁・公的機関:機関やオフィスをまたぐデータシェアリング、分類区域外や一般への統計情報の公開、調査のためのPIIやPHIへのアクセスの拡大
小売・消費財:組織横断的なCustomer 360、アウトレット横断的な消費者行動データの収益化、サプライチェーンベンチマーキング
テクノロジー:研究者や政策立案者のための外部データシェアリング、製品テレメトリ分析
通信:ユーザーデバイス移動データの収益化
現在、このようなユースケースはいくつか考えられますが、プライバシー保護のためにデータが編集されているため、十分に活用できていません。差分プライバシーにより、これらのユースケースは完全に活用され、データはプライバシー漏洩や標的型プライバシー攻撃から保護されます。
機密データの価値を最大限に引き出す
差分プライバシーポリシーは、エンタープライズエディション以上のアカウントを持つSnowflakeのすべてのお客様が利用できます。はじめに、Snowflakeの差分プライバシーについて詳しくは、このデモ動画とSnowflakeドキュメントをお読みください。また、データプライバシーとユーティリティのトレードオフのバランスをとるのに役立つプライバシー強化テクノロジーに関するオンデマンドウェビナーをお見逃しなく。