論文要約: SoK: Content Moderation Schemes in End-to-End Encrypted Systems
SoK: Content Moderation Schemes in End-to-End Encrypted Systemsを要約しました。
近年、E2EEに対応したメッセージアプリが主流となっていますが、ユーザーが悪質なメッセージを報告した場合、運営側はそのメッセージを閲覧することができるのか?ということが気になり調べました。
イントロダクション
コンテンツモデレーションとは
コンテンツモデレーションは、ユーザーが生成したコンテンツがプラットフォームのガイドラインに従っているかを確認し、不適切なコンテンツを削除、修正、または保持するかを決定するためのポリシーとシステムです。これにより、プラットフォーム上で安全な環境を維持しつつ、ユーザー間のトラブルや法的リスクを防ぐことを目指します。
コンテンツモデレーションのプロセス
-
ガイドラインの定義
- プラットフォームの運営者が、どのようなコンテンツが許可されないかを明確にし、ユーザーに公開します。登録時にはこれらの規則に同意する必要があります。
-
コンテンツの検出
- ユーザーが生成したコンテンツを分析し、不適切なものを特定します。これには自動システムや機械学習アルゴリズムが活用され、特定の条件(例:ヘイトスピーチやスパム)を検出します。
- E2EE環境では、メタデータやその他の非暗号化情報を利用する場合もあります。
-
違反の確認
- 自動または手動で、特定されたコンテンツがプラットフォームのガイドラインや法律に違反しているかを評価します。場合によっては、コンテンツアップロード時にフィルタリングを実施します。
-
措置の実施
- 違反コンテンツに対し、以下のような措置を取ります:
- 削除
- 警告の表示
- アカウントの一時停止や削除
- コンテンツの可視性低下(例:シャドウバン)
- 違反コンテンツに対し、以下のような措置を取ります:
-
アピールの受付
- ユーザーがモデレーション決定に異議を申し立てるための仕組みを提供します。これにより、誤った判断を修正する機会が生まれます。
-
ユーザー教育
- 利用規約やコミュニティガイドラインを通じて、ユーザーにプラットフォームの規則を理解させます。違反時には具体的な理由を通知し、教育的なアプローチを取ります。
コンテンツモデレーションの目標
-
プライバシーの保護
- 違反が報告されたメッセージのみを開示し、それ以外のコンテンツは保護します。
-
アカウンタビリティ(責任の明確化)
- 違反が報告された際、送信者を特定できる仕組みを提供します。
-
否認性の保証
- 報告内容はモデレーターによってのみ検証可能とし、関係者が虚偽の報告を作成できないようにします。
これらの目標を達成しながら、安全で健全なコミュニケーション環境を提供することがコンテンツモデレーションの核心です。
各モデルのスキーム
メッセージフランキング
概要
メッセージフランキングは、E2EE(エンドツーエンド暗号化)通信プラットフォームでの不正行為をユーザーが報告できる仕組みです。報告者の匿名性を保護しつつ、送信者の身元を検証可能にする一方、虚偽の報告(フレーミング)は防止されます。主要な課題は、否認性(送信者が送信を否定できること)を保ちながら、アカウンタビリティ(責任の明確化)を保証することです。
技術的詳細
Grubbsらが提案した暗号学的プリミティブ「コンパクト認証付き暗号化(AEAD)」を基盤にしています。この手法では、暗号文の一部がメッセージのコミットメントとして機能します。
Facebook Messengerのプロトコルを例にすると、次の手順で動作します:
-
HMACキー生成
- 送信者がメッセージのHMAC(ハッシュベースメッセージ認証コード)を作成。
-
暗号化と送信
- AEADスキームを使用して、HMACキーを含むメッセージを暗号化。暗号文とハッシュをFacebookサーバーに送信。
-
ハッシュ署名
- サーバーが受信したハッシュに署名し、その署名、HMACハッシュ、暗号文を受信者に送信。
-
受信者の検証
- 受信者が暗号文を復号し、HMACキーを用いてHMACを検証。
-
報告
- 受信者がメッセージを悪質と判断した場合、署名、メッセージ、HMACハッシュ、HMACキーをサーバーに報告。
-
サーバーの確認
- サーバーが署名とハッシュを検証して悪用を確認。
HMACがメッセージのコミットメントとして機能し、一部の暗号文のみが解明可能な形になっています。
既知の課題と改良
-
攻撃手法(Dodisらの研究)
- FacebookのAES-GCMを用いた添付ファイルフランキングに対し、悪用が報告されない攻撃を実証。攻撃者は2つのキーと1つの暗号文を用意し、異なる受信者に悪質な内容と無害な内容を送信。報告時に無害な内容のみが認識される仕組み。
-
改良提案(Chenらの研究)
- 「ターゲット開示型コンパクトコミットAEAD(TOCE)」を提案し、一部の会話のみを開示し、それ以外を秘密に保つ機能を追加。
-
匿名性の限界
- プラットフォームが送信者の識別情報を必要とするため、Signalのような匿名性重視のシステムでは実装が困難。
-
非対称メッセージフランキング(AMF)
- Tyagiらが提案。匿名性を保持する仕組みで、送信者や受信者のメタデータを非公開にする。アカウンタビリティと否認性を保証するため、以下のアルゴリズムを使用:
- Frank: 署名生成
- Verify: 署名検証
- Judge: 報告確認
- Forge/RForge/JForge: 否認性を保証するための偽造機能
- Tyagiらが提案。匿名性を保持する仕組みで、送信者や受信者のメタデータを非公開にする。アカウンタビリティと否認性を保証するため、以下のアルゴリズムを使用:
メッセージトレーサビリティ
概要
メッセージトレーサビリティは、E2EEシステムにおいて、不適切なコンテンツを共有したユーザーを特定するための技術です。この技術では、メッセージが報告されると、そのメッセージの送信者や転送チェーン内の全ての受信者を追跡可能になります。
仕組み
- 各メッセージ送信時に新しい暗号化キーを生成し、メッセージ記録(内容、ハッシュ、送信者・受信者情報)を暗号化してサーバーに保存。キー自体は送信せず、受信者にエンドツーエンド暗号化で送信。
- メッセージが転送されるたびに同様のプロセスを繰り返し、転送チェーン全体のキーを管理。
- メッセージが報告されると、保存された記録とキーを使って送信経路を追跡し、発信元を特定。
課題と懸念
- 送信者・受信者のプライバシーが侵害されるリスクがある。
- プライバシー保護とトレーサビリティの両立にはさらなる研究が必要。
- 分散型システムでの適用は攻撃面が広がる可能性がある。
結論
メッセージトレーサビリティは誤情報の拡散防止に有用ですが、プライバシー保護の課題が残る技術です。一部の提案では協調的トレーシング(関係者の協力による追跡)でE2EE原則を維持する方法も示されていますが、実用化には改善が必要です。
知覚ハッシュ(Perceptual Hashing)
概要
知覚ハッシュは、画像や動画などのマルチメディアコンテンツをハッシュ化し、既知の悪質コンテンツデータベースと照合することで、不適切なコンテンツを検出する技術です。画像がリサイズやフィルタ適用、再エンコードされた場合でも、似た特徴を持つ画像に対して同じハッシュ値を生成します。例として、MicrosoftのPhotoDNAやFacebookのPDQがあります。
仕組み
- 知覚ハッシュアルゴリズムは、疑わしい画像のハッシュ値を生成し、それを既存の悪質コンテンツデータベースと照合。
- サーバー側スキャンでは、ハッシュをサーバーに送信して検出するが、プライバシー侵害のリスクがある。
- クライアント側スキャンでは、悪質コンテンツデータベースを端末に保存して処理するため、プライバシーを保護できる。
課題と脆弱性
-
攻撃の脆弱性
- Prokosらは、PhotoDNAやPDQに対する「ターゲットセカンドプリイメージ攻撃」を実証。これにより、既存の悪質コンテンツを少し改変して検出を回避できることが示された。
- Jainらは、知覚ハッシュアルゴリズム(pHash、dHash、aHash、PDQ)に対して「検出回避攻撃」が可能であることを確認。悪質コンテンツを最小限の改変で検出を回避する手法。
-
プライバシーの懸念
- サーバー側での処理は、ハッシュ値からコンテンツの一部が推測されるリスクがある。
-
誤検出と性能限界
- 知覚ハッシュは似たコンテンツを検出できるが、完全に一致しない場合の正確性に課題がある。
応用例
- WhatsAppでの誤情報検出: 知覚ハッシュを使用してメッセージをファクトチェックし、誤情報が含まれるメッセージをフラグ付けして受信者に通知する仕組みが提案されている。
結論
知覚ハッシュは、不適切なコンテンツを効率的に検出する可能性がある一方で、プライバシー保護や検出回避攻撃への対策が課題です。クライアント側スキャンの採用やプライバシー保護型技術の導入が必要とされています。
NeuralHash - Appleの知覚ハッシュ技術
概要
Appleは2021年8月、「Expanded Protections for Children」という取り組みの一環として、児童性的虐待資料(CSAM)を検出するための知覚ハッシュ技術「NeuralHash」を発表しました。この技術は、iCloudに保存または共有される写真を監視し、不適切な画像を検出した場合に当局や保護者に通知する仕組みです。
仕組み
-
ローカルでの処理
- NeuralHashアルゴリズムが画像をハッシュ化し、CSAMデータベース内の既知のハッシュと照合します。この処理は端末上で行われます。
-
プライベートセットインターセクション(PSI)の使用
- PSIにより、データベースとの一致結果を明かさずにマッチングを実現。
-
セキュリティバウチャーの生成
- 一致した結果や画像の視覚的派生物、ハッシュ値を含む暗号化された「バウチャー」を生成し、画像のメタデータとしてiCloudにアップロード。
-
閾値秘密分散
- アカウントが一定数以上のCSAMコンテンツに一致しない限り、Appleはバウチャーの内容にアクセスできません。
プライバシー保護の特徴
- CSAMと一致しない画像はAppleに知られない。
- 一致した画像のデータは、閾値を超えるまで非公開。
- ユーザーはCSAMデータベースや一致画像を閲覧できない。
課題
- ハッシュ衝突: 異なる画像が同じハッシュ値を生成する問題が指摘されています。
- 敵対的攻撃: NeuralHashを欺く例が示され、完全な信頼性がないことが判明。
- 監視のリスク: この技術が悪用されると、Appleデバイスが継続的な監視システムとなる懸念がある。
結論
NeuralHashは知覚ハッシュを用いたコンテンツモデレーションの一例として注目されていますが、プライバシー保証や技術的な欠陥が課題として残されています。特に敵対的攻撃や監視の可能性については、さらなる改善が必要です。
Predictive Models(予測モデル)
概要
予測モデルは、エンドツーエンド暗号化(E2EE)システムにおけるコンテンツモデレーションのために、悪質コンテンツと良性コンテンツを区別するための機械学習技術です。画像や音声ファイルの特徴を解析するモデル(例:コンピュータビジョンモデルやオーディションモデル)を訓練し、悪質な形状やパターンを検出します。主に畳み込みニューラルネットワーク(CNN)が使用されます。
仕組み
-
画像解析
- 形状、色、質感を基に悪質コンテンツを検出。
-
音声解析
- 音声ファイルの属性を分析し、不適切な内容を特定。
-
分類モデル
- ラベル付きデータを使用してモデルを訓練し、悪質コンテンツの分類を行う。
アルゴリズム例
Shenkmanらが提案した主要アルゴリズム:
- 分類器: 画像内の内容を特定。
- オブジェクト検出: 画像内の複数のオブジェクトを分類・局所化。
- セグメンテーション: 画像内のピクセルをラベル付けし、オブジェクト間の関係を明確化。
- シーン理解: 画像内オブジェクト間の関係を分析してシーン全体を理解。
- オブジェクト追跡: 動画内のオブジェクトの動きを追跡し、内容を把握。
課題
-
性能の制約
- モデルは単純なタスク(例:画像内の特定オブジェクト検出)には適しているが、文脈を理解する能力に欠ける。
-
敵対的攻撃
- 検出回避のために最小限の改変を加えた悪質コンテンツを処理する能力が不足している。
-
処理の課題
- クライアント側での処理はプライバシーを保護できるが、デバイス性能に依存。サーバー側処理は性能が高い一方、プライバシー懸念がある。
結論
予測モデルはコンテンツモデレーションの基盤技術として有望ですが、文脈理解や敵対的攻撃への耐性に課題があります。プライバシー保護と性能のバランスを取るため、クライアント側処理を優先するなどの改善が求められます。
各スキームのまとめ
技術 | プライバシー | アカウンタビリティ(責任の明確化) | 否認性 | 検出能力 |
---|---|---|---|---|
メッセージフランキング | TOCEとAOPの概念によりプライバシーが保証される。 | Encryptmentおよびコンパクトコミット型AEADがアカウンタビリティを保証する。 | 非対称メッセージフランキングスキームが否認性を保証する。 | ユーザーの報告に依存。 |
メッセージトレーサビリティ | 送信者・受信者およびチェーン内の関係者全員のプライバシーは保証されないが、本節で説明した2つのアルゴリズムで実現可能性あり。 | 強力なアカウンタビリティが提供される。 | 強力な否認性が提供される。 | トレーサビリティ節で説明したキー方式を正しく適用すれば、検出能力に問題はない。 |
知覚ハッシュ | プライバシー保護型知覚ハッシュを使用すればプライバシーが保証される。クライアント側処理が推奨される。 | 標的セカンドプリイメージ攻撃が可能なため、強力なアカウンタビリティは保証されない。 | 強力な否認性が提供される。 | 検出回避攻撃が可能なため、検出の正確性は保証されない。 |
予測モデル | 強力なプライバシー保証はないが、クライアント側処理が推奨される。 | 強力なアカウンタビリティが仮定されているが、証明はされていない。攻撃の可能性がある。 | 強力な否認性が仮定されているが、証明はされていない。攻撃の可能性がある。 | 悪質コンテンツの検出は信頼性が低く、性能も十分でない。 |
Discussion