Closed2023/01/11にクローズ2

Off Policy Evaluation (OPE)

強化学習

評価指標

推薦モデル

bilzard

既存モデルの選択バイアスを除去して新規モデルを評価する方法について書かれた記事（以前紹介した反事実評価の記事と同種のテーマ）。

過去ログデータを使って新規モデルの性能をオフラインで評価するとき、実際にとった行動（例: 商品Aを推薦）に対しての報酬（例: CTR）は評価できるが、別の行動をとった（例: 商品Bを紹介）場合の報酬は評価できない。つまり、既存モデルの行動に評価指標が影響される。

本記事では既存モデルのバイアスを取り除く方法について説明している。

bilzard

課題

過去ログを使ってオフラインでモデルの性能を評価する場合、既存モデルが取らなかった行動に対する報酬が未知である。ナイーブな評価方法として、既存モデルが取った行動と新規モデルの行動が一致する場合のみに対しての性能（経験性能）を評価する方法が考えられるが、そうした場合、評価値が既存モデルの行動に左右されるという問題がある。このような既存モデルの行動によるバイアスを取り除きたい。

解決方法

Direct Method (DM)
- 過去ログから観測されなかった行動に対する報酬 $Y(\pi_\phi)$ を予測するモデルを学習し、そのモデルの予測値を報酬の推定値として用いる。
- デメリット：報酬を予測するモデルの性能に結果が左右される。
Inverse Probability Weighting (IPW)
- 観測された報酬に既存モデルの行動確率の逆数で重み付けしたものを新たな報酬とする（つまり、報酬を既存モデルの行動確率で正規化する）。
Doubly Robust (DR)
- DMとIPWの推定値を組み合わせたもの。両者の中間のバイアス-分散トレードオフを持つ。

このスクラップは2023/01/11にクローズされました

作成者以外のコメントは許可されていません