Closed90

プライバシーサンドボックスについて調べる

MORIYA HiroyukiMORIYA Hiroyuki

プライバシーサンドボックスは、サードパーティの Cookie やその他の追跡メカニズムを使用せずにクロスサイトのユースケースを満たすことを目指す一連の提案です。
https://developer.chrome.com/ja/docs/privacy-sandbox/

主に Chrome (Google) がサードパーティ Cookie を廃止するために別の仕組みを入れたいので、それ関連の提案とかをまとめているよう。

MORIYA HiroyukiMORIYA Hiroyuki

このスックラップの目的

シェア No.1 の Google Chrome の動向は無視できないので、とりあえずどういうことをやろうとしているのかの概要を把握するのが目的。

MORIYA HiroyukiMORIYA Hiroyuki

モチベーション

個人的には、トラッキングとかされるのは嫌いだし、FLoC (Federated Learning of Cohorts) とかも好きじゃない。

でも実際広告でいろいろ成り立っている面もあるし、実際どこかでバランスを取っていく必要はあると思うので、Webエンジニアとしてどういうものが導入されて、どういう懸念があるのかとかは知っておきたい。

MORIYA HiroyukiMORIYA Hiroyuki

参考リンクとかを貼っておくスレッド

MORIYA HiroyukiMORIYA Hiroyuki

FLoC (Federated Learning of Cohorts)

MORIYA HiroyukiMORIYA Hiroyuki

こういうイメージのブラウザAPIらしい。
API 自体が問題ではなくて、どういう風にコホート(興味のグループ的なもの)を出すかと、どの程度の粒度があるか(細かいと、ユーザーを特定しやすくなる)とかが問題なきがする。

cohort = await document.interestCohort();
url = new URL("https://ads.example/getCreative");
url.searchParams.append("cohort", cohort);
creative = await fetch(url);

https://github.com/WICG/floc

MORIYA HiroyukiMORIYA Hiroyuki

そもそもターゲティング広告自体に問題もある、という話もあるよう。

加えてEFFは、そもそも「ターゲティング広告」そのものに問題があると指摘。これまで、民族・宗教・性別・年齢または能力に基づいて人々をターゲティングすることにより、仕事や住居といった分野で差別的な広告の数々が行われてきました。例えば信用情報に基づくターゲティングを行うと、金銭的な問題を抱える人に高金利のローンを表示させるという「略奪的な」広告が可能になります。また、政治の世界では、ターゲティング広告が世界的な混乱を起こしてきたと知られています。
https://gigazine.net/news/20210305-googles-floc-terrible-idea/

MORIYA HiroyukiMORIYA Hiroyuki

一応長期的なプライバシーへの懸念と対策案も書かれているよう。
ただ、ちょっと微妙な雰囲気があるな・・・。

Longitudinal Privacy

The expectation is that the user’s FLoC will be updated over time, so that it continues to have advertising utility. The privacy impacts of this need to be taken into consideration. For instance, multiple FLoC samples means that more information about a user’s browsing history is revealed over time. Possible mitigations include not updating FLoC on a site once it has been called (making it sticky), or reducing the rate of refresh.

Second, if cohorts can be used for tracking, then having more interest cohort samples for a user will make it easier to reidentify them on other sites that have observed the same sequence of cohorts for a user. Possible mitigations for this include designs in which cohorts are updated at different times for different sites, ensuring each site sees a different cohort while the semantic meaning of the cohort remains the same.

MORIYA HiroyukiMORIYA Hiroyuki

Webの閲覧履歴などはどこにもアップロードしない、とのこと。

The central idea is that these input features to the algorithm, including the web history, are kept local on the browser and are not uploaded elsewhere — the browser only exposes the generated cohort.

MORIYA HiroyukiMORIYA Hiroyuki

なんか漠然と考えていたのは、Google に送って Google 内で処理するとかなのかな〜、とか思っていた。
なので、思っていたよりはマシな印象だった。

とはいえ、色々問題はありそうな雰囲気を感じた。

  • どういうロジックでコホート(興味のグループ的なもの)は決定されるのか?
    • ブラウザに依存することになりそうだし、機械学習で行われるもののようだから、ブラウザベンダーと教師データ(がいるのかもよくわからない?)によって依存しそう。
  • コホートが逆にプライバシーを侵害する危険性がないのか?
    • サンプル"43A7" みたいな値があったから、16進数4桁で65,536パターンあると思うので、それなりに識別する情報になりそう。
    • IPアドレスや User-Agent とかと組み合わせればほぼ特定できるレベルになるのでは?
    • そういうのがあるから、プライバシーサンドボックスとして一連の提案しているとは思うけど。
MORIYA HiroyukiMORIYA Hiroyuki

FLEDGE

MORIYA HiroyukiMORIYA Hiroyuki

FLEDGE はリマーケティングに活用可能でありながら、第三者がサイト間のユーザーの閲覧行動を追跡できないように設計されています。この API を使用すると、ユーザーが以前にアクセスした Web サイトが提供する関連広告を選択するためのブラウザーによるデバイス上の「オークション」を実現できます。

MORIYA HiroyukiMORIYA Hiroyuki

The browser, not the advertiser, holds the information about what the advertiser thinks a person is interested in.

ブラウザが閲覧者の関心がある情報を知っている(広告主は知らない)って感じか。
この場合 Chrome を持っているのが Google だから微妙な気もするな・・・。

MORIYA HiroyukiMORIYA Hiroyuki
  • Advertisers can serve ads based on an interest, but cannot combine that interest with other information about the person — in particular, with who they are or what page they are visiting.
  • Web sites the person visits, and the ad networks those sites use, cannot learn about their visitors' ad interests.

閲覧者の関心に基づいて広告を配信できるが、誰かを特定することはできない、ってところか。

MORIYA HiroyukiMORIYA Hiroyuki

Chrome expects to build and ship a first experiment in this direction during 2021. For details of the current design, see FLEDGE.

なるほど。
TURTLEDOVE が提案の内容で、FLEDGE が具体的な実装みたいなイメージなのかな。

MORIYA HiroyukiMORIYA Hiroyuki

FLEDGEはプライバシーサンドボックスで議論されてきたTURTLEDOVEという概念の初期のプロトタイプです。TURTLEDOVEはインターネットユーザーの興味・関心といった情報をブラウザに保存し、広告主がそれを利用可能にする仕組みですが、「Google Chromeへの依存が増す」と懸念されています。
https://gigazine.biz/2021/02/21/fledge/

なるほど。

MORIYA HiroyukiMORIYA Hiroyuki

なんだろ、ブラウザが閲覧者の関心を持つ、っていうところがそもそも引っかかるな・・・。
シェアNo.1 の Chrome は Google が持っているわけで、そこを色々やったり、最悪 Chrome はユーザーと紐付けることもできなくはなさそう。

MORIYA HiroyukiMORIYA Hiroyuki

アトリビューションレポート

MORIYA HiroyukiMORIYA Hiroyuki

うーん、こういう微妙な制限を入れないといけないあたり、本質的に微妙な気がする。

MORIYA HiroyukiMORIYA Hiroyuki

詳細なクリックまたは表示イベントを詳細なコンバージョンデータに関連付ける生のレポートは暗号化されており、アドテック企業は読み取ることができません。集計データは、信頼できるサーバーを介してプライベートな方法でこれらのレポートから計算されます。いくつかの計算オプションが検討されています。

信頼できるサーバー=Google という前提(これは想像)だとすると、
Google を信頼しないといけない、ってことになるんだろうか。

MORIYA HiroyukiMORIYA Hiroyuki

結局のところ、Truested Servers には追跡可能なレベルの生レポートがある気がするから、
おそらく Google は見ようと思えば見れる状態になるんじゃないだろうか(想像)

これは、好ましくない状態な気がする。

MORIYA HiroyukiMORIYA Hiroyuki

Trust Tokens

MORIYA HiroyukiMORIYA Hiroyuki

Caution
トラストトークンは、reCAPTCHA やユーザーが主張する人物であることを判断するためのメカニズムに取って代わるものではありません。
トラストトークンは、ユーザーに対する信頼を確立するための手段ではなく、伝達するための手段です。

MORIYA HiroyukiMORIYA Hiroyuki

発行者サイトが、結局 Google になるのかなぁ・・・。
別で作れそうな雰囲気はあるけど、なかなか独自で維持していくのは大変そうなので、Google やそういう広告系のサービスで提供されていくことになる気がするな。

まぁでも、Google 以外でもできるのであれば、まだマシなのかもしれない。

MORIYA HiroyukiMORIYA Hiroyuki

Privacy Budget

MORIYA HiroyukiMORIYA Hiroyuki

リンクされていたこの動画が詳しかった。(英語だけど、日本語字幕もある)
https://youtu.be/0STgfjSA6T8

Font, Canvas, User-Agent などブラウザを識別するため使える API に対して、

一定の制限を設ける、という趣旨らしい。
ただ、現時点では実験段階で絶対的な基準は存在しないっぽい。

MORIYA HiroyukiMORIYA Hiroyuki

User-Agent Client Hints

MORIYA HiroyukiMORIYA Hiroyuki

(力尽きてきたのでざっくりまとめると)
User-Agent で色々な情報を送信し、ユーザーを識別する一部の情報として使えてしまうので、情報をシンプルに、最低限にする、っていう取り組みのよう。

https://web.dev/user-agent-client-hints/

MORIYA HiroyukiMORIYA Hiroyuki

Gnatcatcher

MORIYA HiroyukiMORIYA Hiroyuki

IPアドレスを利用して個々のユーザーを識別する機能を制限します。提案には2つの部分があります。Willful IP Blindnessでは、WebサイトがIPアドレスをユーザーに関連付けしていないことをブラウザに通知できるようになります。Near-path NATでは、ユーザーのグループが同じプライベートサーバーを介してトラフィックを送信し、実質、サイトホストからIPアドレスを隠せます。Gnatcatcherはまた、不正使用防止などの正当な目的でIPアドレスの情報を必要とするサイトが、認証と監査を条件としてIPアドレス情報を取得できるようにします。

MORIYA HiroyukiMORIYA Hiroyuki

Apple の Private Relay について(参考)

クライアントがサーバに通信すれば、 IP アドレスが伝わることは防ぎようがない(伝えなければレスポンスを受け取れない)。そこで、間に Apple が用意した Proxy を挟むことによって、サービスには Proxy の IP アドレスしか伝わらないというのが基本の発想だ。

Private Relay と IP Blindness による Fingerprint 対策 | blog.jxck.io

牧歌的 Cookie の終焉 | blog.jxck.io

MORIYA HiroyukiMORIYA Hiroyuki

(力尽きてきたのでざっくりまとめると)
サーバーからIPアドレスを隠すための技術っぽい。
ユーザーを特定しにくくなるという面では賛成。

ただ、サービス提供側の立場で考えると攻撃者も同じようなことをすると識別しにくくなるので、そのへんは悩ましくなる可能性がありそう。

MORIYA HiroyukiMORIYA Hiroyuki

Safari / Webkit: Private Click Measurement (プライベート クリック測定)

https://developer.chrome.com/ja/docs/privacy-sandbox/attribution-reporting-introduction/#ブラウザのサポート

MORIYA HiroyukiMORIYA Hiroyuki

24~48時間後(ランダム)に送られる。
(バックグラウンドで送られるのかな?)

MORIYA HiroyukiMORIYA Hiroyuki

Anchor 要素の attributionsourceid (多分コンバージョンを識別するためのID) と attributiondestination (コンバージョン先のドメイン)を指定する

MORIYA HiroyukiMORIYA Hiroyuki

<img> タグに元サイトへの特定のURLにアクセスするようにしておくと、

/.well-known/private-click-measurement/trigger-attribution/(ID)/(priority) にリダイレクトさせるのかな。
(priority) の部分は後から上書きしたいときとかに使うっぽい。たぶんキャッシュとかするから?

この辺は、Safari が自動判別するためにやるから <img> タグとかに入れておかないといけないって感じなのかなぁ。

MORIYA HiroyukiMORIYA Hiroyuki

で、それぞれのレポートを作成するための紐付け情報を /.well-known/private-click-measurement/report-attribution/ にJSON形式で提供する。

MORIYA HiroyukiMORIYA Hiroyuki

Debug モードも用意されていて、10秒程度で送ってくれるようになるらしい(通常は24〜48時間後)

このスクラップは2021/10/11にクローズされました