📑

論文要約:Generative models improve fairness of medical classifiers under d

2023/05/21に公開

Generative models improve fairness of medical classifiers under distribution shifts

概要

生成モデルを用いて、データから現実的なaugmentationを学習する方法を提案。分布外精度向上。

書誌情報

2023/4/18
Ira Ktena、他
DeepMind、Google、他
https://arxiv.org/abs/2304.09218

背景

ドメイン汎化(分布外汎化)に関する。

未知のグループやラベルは医療機器にリスク。
医療では、ラベルありデータを容易に集められないため、より深刻。

方法

データから現実的なaugmentationを学習する方法を提案。
生成モデルで、ラベル効率よく学習する。
生成モデルは、拡散モデルを用いる。

①ラベルありデータで拡散モデルを学習。
 ラベルなしデータがあれば、それも用いる。
②拡散モデルから合成データを生成。
③ラベルありデータと合成データで下流タスクを学習。
→適用方法は特異な工夫はない。

大量のラベルなしデータを用いて、条件やサブグループの違いによるデータ分布の違いを認識する。
生成モデルを適切なラベルで条件付けすることで、特定の要件に合った合成データのデータ分布を制御する。

学習されたaugmentationは、モデルをロバストにし、データ分布の内外を公平にする。
ヒューリスティックな方法以上。

結果

3つの医療ベンチマーク(病理、胸部X線、皮膚)で評価。

全ベンチマークで、ロバスト性向上。未知のグループの精度向上、公平性向上。
分布外を大幅に精度向上。
病理 精度7.7%向上。
胸部X線 精度5.2%向上、公平性ギャップ 44.6%に低下。
皮膚ハイリスク 精度63.5%向上、公平性ギャップ 7.5倍に低下。
※公平性はグループ間bestとbaddestの差

ラベルありデータが少ない領域を補えていることが示された。
ラベルありデータを容易に集められない、医療に有用。

テーマによって生成データの有用度が異なる。
生成データが優位なテーマもあれば、実データが優位なテーマもある。

ラベル条件付け生成+色拡張がbest

合成画像、(信頼性の高い)実画像、(合成画像に最も近い)実画像

Discussion