Open2024/01/02にコメント追加10

差分プライバシー

英語だと Differential Privacy (DP)。

Wikipedia は日本語ページはなし。英語ページ → https://en.wikipedia.org/wiki/Differential_privacy

あるデータセットの全体としての統計量の特長を失わないように、個々のデータにノイズを追加する（加工する）ことで、統計的なデータ利活用が可能かつ個人のプライバシーを守ったデータを作成する技術？のよう。
ここで、

あくまで統計的な特徴を維持するだけなので、個々のデータを取り出して分析することはできない（分析しても正しい結果は得られない）。
数学的に、個人が特定不可能になっていることを保証するということが可能っぽい。

やりたいこととアプローチは理解できるが、どこまで汎用性あってどこまで使い勝手があるのだろうか。

疑問 of 1st impression

統計量といっても色々あるが、差分プライバシーは各種の統計量に汎用的に効くの？
「完全なプライバシー保護」なんてできるもんなのか？（データを削除するorデータを公開しない、とか以外で）

「完全なプライバシー保護」なんてできるもんなのか？（データを削除するorデータを公開しない、とか以外で）

こういう状態を指しているらしい。

→ https://en.wikipedia.org/wiki/Differential_privacy

出力を見た観察者が特定の個人の情報が計算に使用されたかどうかを判断できない

差分プライバシーは、
「この人のデータがXであるという仮定」に
統計学的な信頼を一定以上与えられない
という意味での保護に過ぎない

p64 より

腹落ちする。
あてずっぽうで（あるいはでたらめな推定で）個人の特定が部分的に正解してしまう確率を０にすることなんて不可能なので、やはり数学的な一定以上の信頼性の担保ということらしい。

Google BigQuery には差分プライバシー用の集計関数が存在する。

使用例：

SELECT
  WITH DIFFERENTIAL_PRIVACY
    OPTIONS(epsilon=10, delta=.01, max_groups_contributed=1, privacy_unit_column=id)
    item,
    AVG(quantity, contribution_bounds_per_group => (0,100)) average_quantity
FROM professors
GROUP BY item;

-- These results will change each time you run the query.
-- Smaller aggregations might be removed.
/*----------+------------------*
 | item     | average_quantity |
 +----------+------------------+
 | pencil   | 38.5038356810269 |
 | pen      | 13.4725028762032 |
 *----------+------------------*/

Practical Data Privacy #読書感想文 - Qiita

望ましいプライバシー保護のあり方を巡って：差分プライバシーの有用性と限界

LayerX では差分プライバシーのソリューションを提供している。差分プライバシー以外にも匿名化やプライバシー保護の仕組みやビジネスサポートを総合的に提供している。

Intel-SGX のような TEE (Trusted Execution Environment) のソリューションもある。

LayerX では差分プライバシーのソリューションを提供している。差分プライバシー以外にも匿名化やプライバシー保護の仕組みやビジネスサポートを総合的に提供している。

最新（at 2024-01-02）の組織構成を見ると、 Privacy-Tech の事業部はなくなっている？ AI の事業部に統合された、とかなんだろうか。

https://layerx.co.jp/business/

『Practical Data Privacy: Enhancing Privacy and Security in Data』ペーパーバック – 2023/6/6

これの Chapter 2. Anonymization はほとんど差分プライバシーだけ扱っていた。詳しい。英語のみだけど。