🚀

AWS Clean Roomsに差分プライバシーが実装されたので触ってみる

2023/12/04に公開

こんにちは。Acompanyでエンジニアリングマネージャーをしているマッケイです。

この記事は、アカンクリスマスアドベントカレンダー2023の22日目の記事です。

最近、盛り上がりを見せているPETs(Privacy-enhancing technologies:プライバシーテック)界隈ですが、また新たなリリースがAWSから発表されました。

2023年11月29日にAWS Clean Rooms Differential Privacy is now available in previewというタイトルで発表されたこのリリースは、AWS Clean Roomsのさらなるプライバシー保護を強化する機能です。

今回は、新しく発表された「AWS Clean Rooms Differential Privacy」について、リリースを見ながら深ぼって行こうと思います。

AWS Clean Rooms Differential Privacy is now available in preview

AWS Clean Rooms 差分プライバシーがプレビュー提供開始
本日、AWSはAWS Clean Rooms Differential Privacyのプレビューリリースを発表しました。この新機能は、数学的に裏付けされた直感的なコントロールにより、数クリックでユーザーのプライバシーを保護することができます。完全に管理された機能であるため、差分プライバシーの経験がなくても、ユーザーの再識別化を防ぐことができます。
AWS Clean Roomsの差分プライバシーは、コラボレーションの洞察における個人のデータの寄与を難読化し、広告キャンペーン、投資の意思決定、臨床研究などに関する洞察を生成するために、幅広いSQLクエリを実行することができます。AWS Clean Rooms のこの機能により、力仕事、監査、セットアップを減らすことで、AWS Clean Rooms コラボレーションで差分プライバシーを適用することが容易になります。また、非常に柔軟で設定可能なコントロールを使用して、特定のコラボレーションのユースケースをサポートすることができます。
AWS Clean Roomsは、企業とそのパートナーが、お互いの基礎となるデータを公開またはコピーすることなく、集合的なデータセットの分析とコラボレーションをより簡単に行うことを支援します。企業は、独自のソリューションを構築、管理、保守することなく、またAWS環境の外にデータを移動することなく、独自のクリーンルームを展開できます。
https://aws.amazon.com/jp/about-aws/whats-new/2023/11/aws-clean-rooms-differential-privacy-preview/
(DeepLにより翻訳)

Clean Roomsとは

日本ではデータクリーンルームとして名前が広まっている、個人のプライバシーを保護しながら企業間のデータ連携を行えるソリューションです。

https://acompany.tech/privacytechlab/what-is-the-data-clean-room/

AWS Clean Roomsは、データクリーンルームをフルマネージドなサービスとして簡単に構築できるサービスです。

企業とそのパートナーが、お互いにデータを共有したり公開することなく、簡単にデータセットを統合・集計し、分析を行うことができます。

また、AWSの他のサービスともシームレスに連携することができ、S3で管理されているデータセットをすぐにClean Roomsにセットし、分析を開始することができます。

AWS Clean Roomsは企業同士でのコラボレーションを加速させ、広告キャンペーン、投資決定、研究開発に関する独自のインサイトを得ることができます。

Differential Privacyとは

Differential Privacy(差分プライバシー)とは、個人が特定できないようにしながら大規模なデータセットを分析できるようにするプライバシー保護技術です。

差分プライバシーの仕組みを利用することで、データセットから出力される結果に対してノイズを付与し、出力結果から特定の入力データ、つまり個人を推定することを防ぐことが可能です。

https://acompany.tech/privacytechlab/differential-privacy-2

今回、リリースされたものは、AWS Clean Roomsに対してこの差分プライバシーが利用できるようになったというものです。

データクリーンルームに差分プライバシーの技術を組み込むことによって、コラボレーションしたデータセットに対して、数学的に証明された方法で個人の特定リスクを最小限にしながら分析を行うことができるのです。

AWS Clean Roomsには、元々許可されたクエリーのみがコラボレーションテーブルに適用できるというルールを作ることが可能でしたが、差分プライバシーを用いることでより強固なプライバシー保護を実現できるようになっています。

AWS Clean Rooms Differential Privacyの仕組み

AWS Clean Rooms Differential Privacyでは、本来、数学的に厳密に構築された理論を理解し、それを適切に実装を行う必要がある差分プライバシーの技術をフルマネージドなサービスとして利用しやすくしています。

AWS Clean Roomsのダッシュボードから数回のクリックで差分プライバシーのポリシーを設定し、コラボレーションに参加しているメンバーは適切に差分プライバシーで保護されたクエリーのみを実行することができるようになります。

差分プライバシー有効化の設定

差分プライバシーを有効にするかは、AWS Clean Rooms内にデータセットを追加する際に分析ルールを設定する画面から可能です。

データを追加する際に、差分プライバシーを適用するデータセットなのかを設定するようですね。

差分プライバシーポリシーの設定

差分プライバシーを有効化したら、具体的にポリシーを適用していく必要があります。

ポリシーの設定には主に2つのパラメータを設定します。

  1. プライバシーバジェット

プライバシーバジェットはεと呼ばれる値で定量化され、プライバシー保護のレベルを制御します。

プライバシーバジェットは、テーブルに対してクエリーを実行するたびに消費され、完全に消費されるとコラボレーションメンバーはクエリーを実行することができなくなります。

より大きなプライバシーバジェットを設定することで、分析のユーティリティは高まりますが、データに対するプライバシー保護は減少します。

スライダーで、直感的にプライバシー保護の強度を設定できるのは良いですね。

  1. ** クエリーごとに追加されるノイズ **

ノイズとして付与するデータを設定します。

この値を大きくすればするほど、ノイズを増やすことができるので、出力結果にノイズが多く乗った結果を得ることができます。

ノイズ量を増やすことが、プライバシーバジェットの消費量を抑えることができるため、結果的により安全なクエリーを多く実行することができるのです。

上記2つの設定項目を柔軟に設定することにより、プライバシー保護と分析のユーティリティのバランスを取ることができます。

プライバシーバジェットを多くし、ノイズ付与量を多くすることで、非常に多くのクエリーを実行することができるが、一回あたりの分析の精度は低下する、

反対に、プライバシーバジェットを少なくし、ノイズを付与量を少なくすることで、非常に少ないクエリーしか実行できないが、1回あたりの分析制度を高めることができます。

インタラクティブな例

と、ここまでで差分プライバシーの設定を直感的に設定できることはわかりましたが、結局私たちが知りたいのは、その設定値がどのくらいのプライバシー保護を実現できるのかということです。

AWS Clean Roomsは、プライバシー保護と分析のバランスが設定値によってどのように変化するかをより直感的に知れるプレビューを用意してくれています。

例えば、プライバシーバジェットを「2」にし、ノイズを「14」にした場合、クエリーの制限を強くすることと引き換えに、より詳細な分析を行えるクエリーを実行できます。

反対に、プライバシーバジェットを「20」にし、ノイズを「100」にした場合、クエリーの制限をゆるくしながら、プライバシーが強化されたクエリーを実行できるようになります。

このように、直感的な操作感と、プレビュー機能により難しい技術の話を無しにプライバシー保護された分析を始めることができます。

まとめ

今回は新しくリリースされたAWS Clean Rooms Differential Privacyについて、概要や使い方をまとめてみました。

AWS Clean Roomsは、2022年12月にリリースされて以降、どんどん新しい機能やUXが拡充されているように見えます。

GCPもBigQueryを通して、Data Clean Roomを提供されているところからも、どんどんこの領域が盛り上がっていることがわかります。

AWS Clean Roomsは、差分プライバシーの他にもAWS Clean Rooms MLとして機械学習モデルを生成するような機能も新しく発表されていたりします。

今後ますます成長が見込めるこの領域でより良いサービスが出てくるが楽しみですね!

データクリーンルームや差分プライバシーについてより知りたいという方は、ぜひ下記の記事などを参考にしてみてください!

  • データクリーンルームについて

https://acompany.tech/privacytechlab/what-is-the-data-clean-room

https://acompany.tech/privacytechlab/data-clean-room-use-case

https://acompany.tech/privacytechlab/data-clean-room-platform

  • 差分プライバシーについて

https://acompany.tech/privacytechlab/differential-privacy-2

https://acompany.tech/privacytechlab/differential-privacy-data-utilization-specific-example

Happy Hacking😎

Acompany

Discussion