📕

Federated Learning ―プライバシー保護下における機械学習― を読んだ

2023/05/16に公開

takayanagi-san に恵贈賜りまして。一通り読んだ感想になります。

https://www.kyoritsu-pub.co.jp/book/b10018389.html

Federated Learning (連合学習) とは

連合学習は個別分散したデータ保有者の元からデータそのものを持ち出さずに、グローバルな機械学習モデルを構築する手法です。本書は連合学習についてその分類、構成技術、発展の歴史や未解決問題、公開された実装、応用といったさまざまな視点から俯瞰したサーベイ論文の様な作りになっています。

目次と構成

第1章 イントロダクション
第2章 プライバシー保護機械学習
第3章 分散機械学習
第4章 水平連合学習
第5章 垂直連合学習
第6章 連合転移学習
第7章 連合学習のインセンティブメカニズムの設計
第8章 コンピュータビジョン,自然言語処理,推薦システムにおける連合学習
第9章 連合強化学習
第10章 応用事例集
第11章 まとめと展望

感想

プライバシー保護規制の広まりにより、全てのデータを一箇所に集めて機械学習モデルの訓練を行なう従来のアプローチが取りづらくなっていること。AI応用の広まりによってデータの所有権や機密性の高いデータに対する懸念が広まっている点など、1章の導入部ではデータを一箇所に集めることなく活用するモチベーションが高まっている背景が説明されていてすんなりと入れました。また連合学習に関するOSSプロジェクトや利用可能なフレームワーク実装が紹介されているのは実務者にとってありがたいです。

2章はプライバシー保護機械学習の問題設定と構成技術としてマルチーパーティ計算(MCP)、順同型暗号(HE)、差分プライバシー(DP)の紹介があります。私はマルチパーティ計算や秘密計算には馴染みが無かったので難しかったのと同時にYaoの億万長者問題の様な問題が解けると知り興味がそそられました。Yaoの億万長者問題は「アリスとボブという2人の大富豪が、実際の財産を明らかにすることなく、どちらがより豊かであるかを2者間のみのやりとりで明かにする」というものです。3章も同様に分散機械学習について定義と手法の紹介をしています。このあたりは論文のRelated Workの章の様に関連研究を列挙したページが目立って「実務者としてはどこまで知っておけばいいのか」と悩みそうな印象はありました。ただ関連研究をざっと眺めたいときには有用だと思われます。私はYaoの億万長者問題の実装を探して動かしたりするだけで1日が経ってしまったので、まずは全体をさらっと流して読むのがいいと感じました。とにかく情報量が多く圧倒されるのですが、わかりにくい点は訳注でかなり補足されていて翻訳者の優しさを感じます。

3章から5章は連合学習の分類ごとの手法の詳細に立ち入った解説があります。単にデータを分散させたままグローバルモデルが訓練できます、という話ではなくデータプライバシー、セキュリティ要件、計算コスト、通信コストの問題をどう解決しているのか明かされるので興味深く読めました。ただ参加者が異なる特徴量を持つ設定の水平連合学習については研究は面白いにしても、運用しろと言われたら裸足で逃げ出しそうです。データが1箇所にある機械学習システムの運用ですら苦労しているのに。

7章は連合学習に参加させる金銭インセンティブの設計で、ゲーム理論やマーケットデザインが好きなら面白く読めると思います。

8章以降は応用と連合強化学習の話題。私は医療分野のソフトウェア開発に携っているのでデータは個々の医療機関に閉じた状態で何かしらの予測を行なうグローバルな機械学習モデルを構築するという手法には興味がありましたが、10章で連合学習を用いてデータは個々の医療機関に閉じたままグローバルな脳腫瘍のセグメンテーションモデルを構築したという論文が紹介されていて既に実用例があるのかと驚きました。

まとめ

連合学習は、その応用が幅広く研究され、これまで以上に包括的な分野になりつつある。機械学習、統計学、情報セキュリティ、暗号化とモデル圧縮、ゲーム理論と経済原理、メカニズムデザインなどの研究とその実践を、連合学習は網羅している

とまとめの章にある通り、幅広い分野が登場します。連合学習に関連する研究を行なっている人だけでなく、プライバシー保護規制の影響を受けつつある業界で機械学習エンジニアをやっている人は興味深く読めそうです。例えばオンライン広告プラットフォームを運営していて、各テナントのデータを1箇所に集めずにグローバルなクリック率予測モデルなどを訓練したいといったニーズは今後発生するでしょう。

また連合学習の日本語リソースはまだ少ないので日本語で一気にキャッチアップしたいときにかなり助けられると思いました。

Discussion