差分プライバシー
英語だと Differential Privacy (DP)。
Wikipedia は日本語ページはなし。英語ページ → https://en.wikipedia.org/wiki/Differential_privacy
あるデータセットの全体としての統計量の特長を失わないように、個々のデータにノイズを追加する(加工する)ことで、統計的なデータ利活用が可能かつ個人のプライバシーを守ったデータを作成する技術?のよう。
ここで、
- あくまで統計的な特徴を維持するだけなので、個々のデータを取り出して分析することはできない(分析しても正しい結果は得られない)。
- 数学的に、個人が特定不可能になっていることを保証するということが可能っぽい。
やりたいこととアプローチは理解できるが、どこまで汎用性あってどこまで使い勝手があるのだろうか。
疑問 of 1st impression
- 統計量といっても色々あるが、差分プライバシーは各種の統計量に汎用的に効くの?
- 「完全なプライバシー保護」なんてできるもんなのか?(データを削除するorデータを公開しない、とか以外で)
「完全なプライバシー保護」なんてできるもんなのか?(データを削除するorデータを公開しない、とか以外で)
こういう状態を指しているらしい。
→ https://en.wikipedia.org/wiki/Differential_privacy
出力を見た観察者が特定の個人の情報が計算に使用されたかどうかを判断できない
差分プライバシーは、
「この人のデータがXであるという仮定」に
統計学的な信頼を一定以上与えられない
という意味での保護に過ぎない
p64 より
腹落ちする。
あてずっぽうで(あるいはでたらめな推定で)個人の特定が部分的に正解してしまう確率を0にすることなんて不可能なので、やはり数学的な一定以上の信頼性の担保ということらしい。
Google BigQuery には差分プライバシー用の集計関数が存在する。
使用例:
SELECT
WITH DIFFERENTIAL_PRIVACY
OPTIONS(epsilon=10, delta=.01, max_groups_contributed=1, privacy_unit_column=id)
item,
AVG(quantity, contribution_bounds_per_group => (0,100)) average_quantity
FROM professors
GROUP BY item;
-- These results will change each time you run the query.
-- Smaller aggregations might be removed.
/*----------+------------------*
| item | average_quantity |
+----------+------------------+
| pencil | 38.5038356810269 |
| pen | 13.4725028762032 |
*----------+------------------*/
LayerX では差分プライバシーのソリューションを提供している。差分プライバシー以外にも匿名化やプライバシー保護の仕組みやビジネスサポートを総合的に提供している。
Intel-SGX のような TEE (Trusted Execution Environment) のソリューションもある。
LayerX では差分プライバシーのソリューションを提供している。差分プライバシー以外にも匿名化やプライバシー保護の仕組みやビジネスサポートを総合的に提供している。
最新(at 2024-01-02)の組織構成を見ると、 Privacy-Tech の事業部はなくなっている? AI の事業部に統合された、とかなんだろうか。
『Practical Data Privacy: Enhancing Privacy and Security in Data』 ペーパーバック – 2023/6/6
これの Chapter 2. Anonymization はほとんど 差分プライバシーだけ扱っていた。詳しい。英語のみだけど。