🦁
選考チューニングのDPOを数式ベースで理解する

2025/03/21に公開
math
LLM
生成 AI
tech
大規模言語モデル入門IIに出てくるDPOについて、メモがてら数式の意味を記載していこうと思います。

章番号や数式の番号は書籍のものなので、下記書籍を持ってないとなんのこっちゃだと思います。
https://gihyo.jp/book/2023/978-4-297-13633-8
https://gihyo.jp/book/2024/978-4-297-14393-0
今回の対象は、12.1.3項です。式変形が多めになります。

 DPOの数式
 eq(12.5), eq(12.6)の式変形こちらは式変形のみです。

変形前の数式の意味はこちらに書いてますので、知りたい方はこちらを確認していただければと思います。
arg⁡max⁡ϕEx∼DrlEy∼πϕ(y∣x)[r(x,y)−βlog⁡πϕ(y∣x)πϕref(y∣x)]
\arg \max_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ r(x,y) - \beta \log \frac{\pi_\phi(y|x)}{\pi_{\phi_{\text{ref}}}(y|x)} \right]
argϕmax​Ex∼Drl​​Ey∼πϕ​(y∣x)​[r(x,y)−βlogπϕref​​(y∣x)πϕ​(y∣x)​]ここで、−1β-\frac{1}{\beta}−β1​をかけると、[⋅][\cdot][⋅]の中身の符号が逆になります。これでは等号が成り立たなくなってしまうので、最大化問題を最小化問題（つまりarg⁡max⁡→arg⁡min⁡\arg \max \to \arg \minargmax→argmin）に変更します。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πϕref(y∣x)−1βr(x,y)]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_{\phi_{\text{ref}}}(y|x)} - \frac{1}{\beta}r(x,y) \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logπϕref​​(y∣x)πϕ​(y∣x)​−β1​r(x,y)]次に、log⁡\loglogでくくるために、少し変更していきます。

まずは第2項をlog⁡\loglogにしましょう。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πϕref(y∣x)−log⁡exp⁡(1βr(x,y))]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_{\phi_{\text{ref}}}(y|x)} - \log \exp \left( \frac{1}{\beta}r(x,y) \right) \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logπϕref​​(y∣x)πϕ​(y∣x)​−logexp(β1​r(x,y))]そうしたら、log⁡a−log⁡b=log⁡ab\log a - \log b = \log \frac{a}{b}loga−logb=logba​を利用して1つのlog⁡\loglogでまとめます。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πϕref(y∣x)exp⁡(1βr(x,y))]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_{\phi_{\text{ref}}}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)} \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​​logπϕref​​(y∣x)exp(β1​r(x,y))πϕ​(y∣x)​​
 eq(12.9) ～ eq(12.12)の式変形こちらも、先ほどのeq(12.6)の式変形の続きですので、丁寧に変形していきましょう。
arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πϕref(y∣x)exp⁡(1βr(x,y))]
\arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_{\phi_{\text{ref}}}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)} \right]
argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​​logπϕref​​(y∣x)exp(β1​r(x,y))πϕ​(y∣x)​​まず、分母分子に1Z(x)\frac{1}{Z(x)}Z(x)1​をかけます。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡1Z(x)πϕ(y∣x)1Z(x)πϕref(y∣x)exp⁡(1βr(x,y))]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\frac{1}{Z(x)}\pi_\phi(y|x)}{\frac{1}{Z(x)}\pi_{\phi_{\text{ref}}}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)} \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​​logZ(x)1​πϕref​​(y∣x)exp(β1​r(x,y))Z(x)1​πϕ​(y∣x)​​そしたら先ほどとは逆で、log⁡ab=log⁡a−log⁡b\log \frac{a}{b} = \log a - \log blogba​=loga−logbを使って分離します。この時、
a=πϕ(y∣x)1Z(x)πϕref(y∣x)exp⁡(1βr(x,y))
a = \frac{\pi_\phi(y|x)}{\frac{1}{Z(x)}\pi_{\phi_{\text{ref}}}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)}
a=Z(x)1​πϕref​​(y∣x)exp(β1​r(x,y))πϕ​(y∣x)​b=Z(x)
b = Z(x)
b=Z(x)です。それを適用すると下記のようになります。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)1Z(x)πϕref(y∣x)exp⁡(1βr(x,y))−log⁡Z(x)]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\frac{1}{Z(x)}\pi_{\phi_{\text{ref}}}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)} - \log Z(x) \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​​logZ(x)1​πϕref​​(y∣x)exp(β1​r(x,y))πϕ​(y∣x)​−logZ(x)​そしたら第1項の分母はeq(12.8)のπr(y∣x)\pi_r(y|x)πr​(y∣x)と全く同じ形ですので、置き換えましょう。
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πr(y∣x)−log⁡Z(x)]
= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_r(y|x)} - \log Z(x) \right]
=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logπr​(y∣x)πϕ​(y∣x)​−logZ(x)]ここでZ(x)Z(x)Z(x)はπϕ(y∣x)\pi_\phi(y|x)πϕ​(y∣x)には関係ない、つまりϕ\phiϕの関数ではないので、最適なϕ\phiϕを求める際には定数とみなすことができます。

よってほんとは少し異なりますが、下記のように変形できます（第2項は無関係なので消せる）
=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πr(y∣x)]−arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡Z(x)]=arg⁡min⁡ϕEx∼DrlEy∼πϕ(y∣x)[log⁡πϕ(y∣x)πr(y∣x)]
\begin{aligned}
&= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_r(y|x)} \right] - \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log Z(x) \right] \\
&= \arg \min_\phi \mathbb{E}_{x \sim \mathcal{D}_{\text{rl}}} \mathbb{E}_{y \sim \pi_\phi(y|x)} \left[ \log \frac{\pi_\phi(y|x)}{\pi_r(y|x)} \right]
\end{aligned}
​=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logπr​(y∣x)πϕ​(y∣x)​]−argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logZ(x)]=argϕmin​Ex∼Drl​​Ey∼πϕ​(y∣x)​[logπr​(y∣x)πϕ​(y∣x)​]​なお、一般的にはarg⁡min⁡\arg \minargminは上記のようには分解できませんので、注意が必要です。今回は定数とみなせたので分解できました。

 eq(12.8) → eq(12.13)の導出まず、eq(12.8)の両辺にlog⁡\loglogを適用してみましょう。
log⁡πr(y∣x)=log⁡πϕref(y∣x)exp⁡(1βr(x,y))Z(x)=log⁡πϕref(y∣x)+log⁡exp⁡(1βr(x,y))−log⁡Z(x)=log⁡πϕref(y∣x)+1βr(x,y)−log⁡Z(x)
\begin{aligned}
\log \pi_r (y|x) &= \log \frac{\pi_{\phi_\text{ref}} (y|x) \exp \left( \frac{1}{\beta} r(x, y) \right) }{Z(x)} \\
&= \log \pi_{\phi_\text{ref}} (y|x) + \log \exp \left( \frac{1}{\beta} r(x, y)  \right) - \log Z(x) \\
&= \log \pi_{\phi_\text{ref}} (y|x) + \frac{1}{\beta} r(x, y) - \log Z(x)
\end{aligned}
logπr​(y∣x)​=logZ(x)πϕref​​(y∣x)exp(β1​r(x,y))​=logπϕref​​(y∣x)+logexp(β1​r(x,y))−logZ(x)=logπϕref​​(y∣x)+β1​r(x,y)−logZ(x)​これを、r(x,y)r(x, y)r(x,y)を左辺に、そのほかを右辺に送ると、（符号に注意）
r(x,y)=β(log⁡πr(y∣x)−log⁡πϕref(y∣x)+log⁡Z(x))=βlog⁡πr(y∣x)πϕref(y∣x)+βlog⁡Z(x)
\begin{aligned}
r(x, y) &= \beta \left( \log \pi_r (y|x) - \log \pi_{\phi_\text{ref}} (y|x) + \log Z(x) \right) \\
&= \beta \log \frac{\pi_r(y|x)}{\pi_{\phi_{\text{ref}}}(y|x)} + \beta \log Z(x)
\end{aligned}
r(x,y)​=β(logπr​(y∣x)−logπϕref​​(y∣x)+logZ(x))=βlogπϕref​​(y∣x)πr​(y∣x)​+βlogZ(x)​
 eq(12.15)の導出こちらは、eq(12.1)にeq(12.14)を代入すると、Z(x)Z(x)Z(x)の項がキャンセルされるだけなので省略します。

 損失関数を理解するさて、今までは無味乾燥な式変形をひたすらしてきました。

それもこれも、下記のDPO損失関数を得るためでした。
LDPO(ϕ)=−E(x,y+,y−)∼Dp[log⁡σ(βlog⁡πϕ(y+∣x)πϕref(y+∣x)−βlog⁡πϕ(y−∣x)πϕref(y−∣x))]
\mathcal{L}_{\text{DPO}}(\phi) = -\mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}_p} \left[ \log \sigma \left( \beta \log \frac{\pi_\phi(y^+|x)}{\pi_{\phi_{\text{ref}}}(y^+|x)} - \beta \log \frac{\pi_\phi(y^-|x)}{\pi_{\phi_{\text{ref}}}(y^-|x)} \right) \right]
LDPO​(ϕ)=−E(x,y+,y−)∼Dp​​[logσ(βlogπϕref​​(y+∣x)πϕ​(y+∣x)​−βlogπϕref​​(y−∣x)πϕ​(y−∣x)​)]この式はどんな意味があるのでしょうか。
そもそも、損失関数の大元はこちらになっています。
LDPO(ϕ)=−E(x,y+,y−)∼Dp[log⁡p∗(y1>y2∣x)]
\mathcal{L}_{\text{DPO}}(\phi) = -\mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}_p} \left[ \log p^* (y^1 > y^2 | x) \right]
LDPO​(ϕ)=−E(x,y+,y−)∼Dp​​[logp∗(y1>y2∣x)]これは、eq(12.1)とeq(12.2)からもわかると思います。

意味としては、プロンプトxxxが与えられたとき、応答y1y^1y1が応答y2y^2y2よりも好まれる確率p∗(y1>y2∣x)p^* (y^1 > y^2 | x)p∗(y1>y2∣x)を最大にしたい（LDPO(ϕ)\mathcal{L}_{\text{DPO}}(\phi)LDPO​(ϕ)はマイナスをかけてるので最小化したい）というものでした。

なので、大元の式にeq(12.15)を代入すればDPO損失関数が得られるというわけです。

つまるところ、本質はeq(12.2)もeq(12.15)も同じになります。
ただし、eq(12.2)
L(θ)=−E(x,y+,y−)∼Dp[log⁡(σ(rθ(x,y+)−rθ(x,y−)))]
\mathcal{L}(\theta) = -\mathbb{E}_{(x,y^+,y^-) \sim D_{\text{p}}} \left[ \log \left( \sigma \left( r_\theta(x, y^+) - r_\theta(x, y^-) \right) \right) \right]
L(θ)=−E(x,y+,y−)∼Dp​​[log(σ(rθ​(x,y+)−rθ​(x,y−)))]では、損失関数に報酬rθ(x,y∗)r_\theta(x, y^*)rθ​(x,y∗)が含まれてますね。これでは、報酬rθ(x,y∗)r_\theta(x, y^*)rθ​(x,y∗)を出力できるモデル（報酬モデル）を通さないと方策モデル学習できないことになりますね。

だから強化学習を使っていたわけです。
それが、DPO損失関数だと、損失関数に報酬がなくなり、代わりに求めたい方策が直接書かれてますね。

学習対象のLLM（方策モデル）の出力が含まれているため、この損失関数を用いて直接最適化できることを意味します。
そのことからこの本ではDPOは、RLHFと同様の訓練を勾配法を用いて直接行えるようにした手法と説明されていますね。

今ならこの意味が少しは理解できると思います。

 DPOは過学習しやすい？損失関数LDPO\mathcal{L}_{\text{DPO}}LDPO​は、どんなときに小さくなるのでしょうか。

それは、 log⁡πϕ(y+∣x)πϕref(y+∣x)\log \frac{\pi_\phi(y^+|x)}{\pi_{\phi_{\text{ref}}}(y^+|x)}logπϕref​​(y+∣x)πϕ​(y+∣x)​が正の大きい値になり、log⁡πϕ(y−∣x)πϕref(y−∣x)\log \frac{\pi_\phi(y^-|x)}{\pi_{\phi_{\text{ref}}}(y^-|x)}logπϕref​​(y−∣x)πϕ​(y−∣x)​が負の（絶対値が）大きい値になるときです。

※ なぜなら、シグモイドの中身が大きくなるとσ(⋅)\sigma(\cdot)σ(⋅)は1に近づき、そのlog⁡\loglogはゼロに近い値になるため
log⁡πϕ(y+∣x)πϕref(y+∣x)\log \frac{\pi_\phi(y^+|x)}{\pi_{\phi_{\text{ref}}}(y^+|x)}logπϕref​​(y+∣x)πϕ​(y+∣x)​が大きい値を取るには、πϕ(y+∣x)πϕref(y+∣x)\frac{\pi_\phi(y^+|x)}{\pi_{\phi_{\text{ref}}}(y^+|x)}πϕref​​(y+∣x)πϕ​(y+∣x)​が1より大きくなる、つまりπϕ(y+∣x)>πϕref(y+∣x)\pi_\phi(y^+|x)>\pi_{\phi_{\text{ref}}}(y^+|x)πϕ​(y+∣x)>πϕref​​(y+∣x)となり、両辺の差が大きければ大きいほどよい、ということになります。

これは、参照モデルπϕref\pi_{\phi_{\text{ref}}}πϕref​​が出力しにくい「好まれる出力y+y^+y+」でもなんでもお構いなしに、学習対象モデルπϕ\pi_\phiπϕ​がy+y^+y+を出力する確率を上げていこう、という趣旨となるので、πϕ\pi_\phiπϕ​に無理やりy+y^+y+を出力させるよう学習を進めるためですね。
もっというとπϕref\pi_{\phi_{\text{ref}}}πϕref​​が出力しにくいy+y^+y+のほうが嬉しい、という、参照モデルからかけ離れた方向に学習させようとしているので、RLHFのときにおこなってた正則が壊れていますね。
次に第2項のlog⁡πϕ(y−∣x)πϕref(y−∣x)\log \frac{\pi_\phi(y^-|x)}{\pi_{\phi_{\text{ref}}}(y^-|x)}logπϕref​​(y−∣x)πϕ​(y−∣x)​を見てみましょう。

先ほどと逆なのですが、log⁡\loglogが負の大きい値となるには、中身πϕ(y−∣x)πϕref(y−∣x)\frac{\pi_\phi(y^-|x)}{\pi_{\phi_{\text{ref}}}(y^-|x)}πϕref​​(y−∣x)πϕ​(y−∣x)​が1より小さい値にならなければなりません。そのためにはπϕ(y−∣x)<πϕref(y−∣x)\pi_\phi(y^-|x)<\pi_{\phi_{\text{ref}}}(y^-|x)πϕ​(y−∣x)<πϕref​​(y−∣x)となり、この差が大きければ大きいほどよいということになります。

これは、参照モデルπϕref\pi_{\phi_{\text{ref}}}πϕref​​が出力しやすかったデータy−y^-y−のときに、思いっきりπϕ(y−∣x)\pi_\phi(y^-|x)πϕ​(y−∣x)の確率を下げちゃおう、というものになります。

人間が好まないデータは絶対に出力しないぞ、という意思を感じますね。このとき、y−y^-y−を出力しないように過学習が起こるのです。
DPOに関する説明は以上です。
Discussion

ログインするとコメントできます