💡
【直観】KL forwardとKL reverseの違い
KL divergenceについての感覚的なところを備忘用にまとめておく.
KL forwardとKL reverseの違い
変分推論など,Pが真の分布(ex. 観測値,データ,複雑),Qが近似分布(ex. 予測値,モデル,比較的シンプル)というような設定が多い.
Pが複雑でQが比較的シンプルだとすると,KL forwardでは,QがPをカバーする(ある種ブロードな)分布であるほどdivergenceは小さくなる(スコア的に似る).
逆にKL reverseでは,QがPの特徴的な部分を捉えているほどdivergenceは小さくなる.
そのためKL reverseを指標とした方が近似分布Qの分散が小さくなるため,KL reverseの方がモデリングでは使われる傾向にある.
KL divergenceの覚え方
個人的にはベイズ的な解釈が覚えやすい.
後は
Discussion