数式なしで100%絶対にわからせる差分プライバシーという分野についての解説

犬(SSR🐈)

2024年5月7日 01:22

今回は僕の研究分野(にしようとしている予定の)差分プライバシーについて簡単な概要を解説します。縛りプレイとして, 以下の条件を課しました。
1. 数式は使わない

TL;DR

差分プライバシーはデータを取得する際の情報の保護されている度合いを定量的に扱う分野です。

プライバシー保護について

データの保護に関して皆様にわかりやすく理解してもらうため, 今回はプライバシーを保護する対象である仮名: 新世界の神さんにお越しいただきました。

この方は, 偉大な仕事をされている方なので, その仕事の内容を悟られてはいけません。こういった時大切な個人情報を保存するデータベースは暗号化がかけられます。

このデータは一見安全に見えます。知られてほしくないことが暗号化されているからです。情報の質に関してはどうでしょうか?例えば日本全国の人が保存された人間のデータベースがあったとして, 東京大学の人間は1学年3000人ですから学部だけで12000人はいる計算になります。今までの卒業生を合わせて, そんなデータベースで18~70歳ぐらいまでの東大の人間を取り出してくださいと言われても, (70-18+1)×3000=15.9万人は出てくるわけです。この中から新世界の神さんを見つけてくださいと言われても特定するのは困難なように思えませんか?ですが, 備考欄の全国模試一位に関してはどうでしょうか?これはかなり絞られる情報です。おそらく日本国内に3桁もいないでしょう。この情報が知られてしまうと新世界の神さんのプライバシーが脅かされてしまう可能性があります。例えば, 悪意のある攻撃者がいた場合に, この悪意のある攻撃者は他のデータベースと照らし合わせて, 個人にとって不都合な情報を抜き取ってしまう場合があります。

ちょっとふざけすぎましたが, これは実際に起きていることでもあります。
Netflixでのデータ分析コンペでは, 匿名で, 暗号化されていると思っていたデータと他のデータとの照合により, 閲覧履歴と発言から個人の政治的思想が晒されてしまいました。

Robust De-anonymization of Large Datasets (How to Break Anonymity of the Netflix Prize Dataset)

こちらも読んでおきましょう。

差分プライバシーの考える対抗策

上のように新世界の神さんのデータが抜き取られてしまったのはなぜでしょうか, それは提供されたデータに特異性がありすぎたためです。職業キラ, 全国模試一位, なんて情報は個人を特定するのに十分すぎます。じゃあどうすればよかったのでしょうか, それはユーザーが手にするデータにノイズを加えてあげることです。例えば全国模試一位を全国模試一位から百位にしてみたらどうでしょう？該当する人数が一気に100倍に増えます。こんなふうにノイズを加えてあげることで, あるデータベースにおける個人の影響力というものが小さくなります。

そしてこのノイズを加えた時の一個人のデータの保護できている度合いを定量化したものが, 差分プライバシーと呼ばれているものです。ちょっと専門用語が入ってしまいますが, 検索クエリで得られる情報から元の情報がどの程度正確に推測されうるかを定量的に評価することです。この時の攻撃者仮定もあります。参考文献[1]によると

差分プライバシーの攻撃者仮定[1]

攻撃者は任意の事前分布を背景知識として持つ
攻撃者はベイズ推定によって入力のデータベースの事後分布を攻める
差分プライバシーは攻撃の結果得た事後分布に対して事前分布と事後分布の差に上限を与える

ということです。また, データにノイズを加えてユーザーに提供したとしても, そのデータが本当にランダムなデータになってしまって, ユーザーにとって使い物にならないデータになってしまっては, データサイエンスの観点からは, 意味がありません。(そして大体のパターンでそのランダムネスとデータの有用さはトレードオフの関係にあります)

そのため, 差分プライバシーは

データがどの程度保護されているのか
保護されたデータは真の値から確率的にどの程度離れているのか

ということを定量的に議論する理論を提案してくれています。

まとめ

いかかでしたか?差分プライバシーについてなんとなくのお気持ちがわかってくれたら嬉しいです。少しふざけ過ぎてしまった部分があるのでもう少し真面目な話をします。もしこれ以上の内容に数式的, 理論的な興味があったら参考文献[1]の日本語訳された本や, 差分プライバシー提唱者の参考文献[2]なんかもおすすめです。ネットでpdfも転がっています。The Algorithmic Foundations of Differential Privacy あとはMachine Unlearningの評価指標としての差分プライバシーなんかもあります。[3] MLに興味がある方は是非そちらも調べてみてください。
あとは研究が進んできたらもう少しnoteでも理論的なことを話す予定です。ぜひお楽しみにしてください。

参考文献

[1]佐久間淳 (2016). データ解析におけるプライバシー保護
[2]Cynthia Dwork, Aaron Roth(2014). The Algorithmic Foundations of Differential Privacy
[3]Evaluation for the NeurIPS Machine Unlearning Competition(2023).

この記事が気に入ったらサポートをしてみませんか？