🙌

[survey]Learning from Aggregate Observations

2024/03/16に公開

論文情報

Title: Learning from Aggregate Observations
Author: Yivan Zhang(Univ. Tokyo)
from NeurIPS 2020


どのような研究か(要約)

プライバシー保護の観点やアノテーションコスト等の問題により個々のデータをそのまま学習に用いることが難しいケースが存在する。そのため、集約された情報のみから機械学習を行う必要があるが、既存の教師あり学習をそのまま適用することは難しい。そのような状況下で良く知られている手法としてmultiple instance learning(MIL)やLearning from label proportions(LLP)があるが、これらは二値分類のみであったり集約の方法が限定的であったりと、適用可能な問題が絞られている。本論文では、それらの制限を取り払い、集約データに対するより汎用的な学習手法を提案する。

問題設定

例えばA君の数学のテストの点数がZ\in\mathcal{Z}、A君の特徴量(勉強時間や今までのテストの結果など)をX\in\mathcal{X}とする。他にもB君C君...といった具合に個々人の特徴量と点数のデータがあり、これらのデータを基に特徴量からテストの点数を算出するモデルを構築したいが、プライバシー保護の観点上K個のZ(=Z_{1:K})に関して集約処理Tを施されたデータ=Y\in\mathcal{Y}のみ利用可能である、つまりZは直接学習に利用できない。例えば利用可能な情報として、点数の平均値Y=T(\frac{1}{K}\sum_{i}^K Z_i)等がある。本問題はZの代わりにZ_{1:K}に関して集約されたデータYX_{1:K}を一つのデータととらえ、最終的にp(Z|X)を学習することを目的とする。
XYZなどの大文字は確率変数、xyzなどの小文字は確率変数のインスタンスとし、\mathcal{X}\mathcal{Y}\mathcal{Z}などのカリグラフィー体の文字はそれらのサポート空間とする。またXは特徴ベクトル、Yは集約されたラベルデータ、Zは観測できない真のラベルデータとする。\mathcal{Z}が有限集合の時クラス分類となり、\mathbb{R}の時は回帰問題となる。Z_{1:K}のような添え字表記は、集合\{Z_1, Z_2, ..., Z_K\}の略記。y^{(i)}のような上付き添え字表記は、データセット内のi番目のサンプルポイントを示す。記号p(\cdot)は分布およびその確率質量/密度関数の両方を示すために使用される。

提案手法の新規性と優位性

p(Z|X)を推定するにあたってよりシンプルにモデリングするため以下の過程を置いている。

  • Yを推定するための情報はZがあれば十分で、Xは必要ない。
    • つまりp(Y|X_{1:K}, Z_{1:K})=p(Y|Z_{1:K})
  • Z_{1:K}の各要素Z_iは相互に独立
    • つまりp(Z_{1:K}|X_{1:K})=\prod_{i=1}^{K} p(Z_i | X_i)

以上の条件により、同時分布は以下のように分解される。

\begin{aligned} p(X_{1:K}, Z_{1:K}, Y)=p(Y|Z_{1:K})\prod_{i=1}^{K} p(Z_i | X_i)p(X_i) \tag{1} \end{aligned}

ここでp(Y, Z_{1:K}|X_{1:K})=p(Y|Z_{1:K})\prod_{i=1}^{K} p(Z_i | X_i)となるので、Z_{1:K}に関して周辺化することでp(Y|X_{1:K})は以下のようにモデリングされる。

\begin{aligned} p(Y | X_{1:K}) = \int_{Z^K} \delta_{T(z_{1:K})}(Y) \prod_{i=1}^{K} p(z_i | X_i) dz_{1:K} = E_{Z_i \sim p(Z_i | X_i)} \left[ \delta_{T(Z_{1:K})}(Y) \right] \tag{2} \end{aligned}

ここで\delta_{T(z_{1:K})}(Y)Z_{1:K}に対する集約後の値Yが得られる確率分布だが、Z_{1:K}Yの関係はTにより一意に定まるため(例えばz_{1:3}が{30, 50, 40}のとき、その平均値は常に40なので確率的ではない)ある一点で無限大の確率密度を持つデルタ関数で表現される。

回帰問題ではZ\mathcal{N}(\mu, \sigma^2)に従うと仮定する。この\mu\sigmaを勾配ブースティングやNN等のモデルで学習する。ここで誤差に分散の不均一性を仮定すると、Z_i=f(X_i;W)+\epsilon_i, for i=1,...,K, where \epsilon_i \overset{\mathrm{iid}}{\sim}\mathcal{N}(\mu, \sigma^2)とおける。よってfを学習することで直接Zを推定できる。

実験結果


表1
クラス分類及び回帰問題、両者で有に提案手法が優れていると報告している。
表1は回帰問題に対する提案手法の結果であり、題材として以下二つの集約関数で実験をしている。

  • Mean Observation
    • ラベルは平均値
    • Baselineは{Z_1,...,Z_K}のラベルを全てZ_{1:K}の平均値としたデータセットで学習したモデル
  • Rank Observation:
    • ラベルは真のラベル間の比較(どっちが大きいかのTrue or Falseのような)
    • BaselineはRankNet

また評価指標はMSEであり、SupervisedはあるXに対し真のラベルZで学習した結果である。(要は集約無しに教師あり学習した結果)
LRとGBMはfの中身であり、それぞれLinear RegressionとGradient Boosting Machineの略語。GBMはLightGBMを利用しているとある。
この表にあるように、提案手法は全体的にBaselineより高い精度で学習が可能。
また、Mean Observationに関しては集約無しのモデルに匹敵するような結果となっていると文中では述べている。
(この実験ってKはいくつだろう、見落とした?)

所感

  • 集約データに対する汎用的な手法が包括的にまとめられていて実験結果も豊富かつappendixも充実しており、穴という穴があまり見当たらない論文だと感じた。すごく丁寧。
  • Xも集約されている状況における学習も課題だったりする?

Discussion