選考チューニングのDPOを勉強していて、理論は理解できたのですが、どうしてもπϕ(y1∣x)をどうやってLLMから算出するかがわからないままでした。
そんなこと知らなくても、ライブラリを使えば簡単に学習できるわけですが...ライブラリがあるから理論を知らなくていいということは決してないのでちゃんと調べてみました。
調べたことをメモがてら書いておきます(間違ってる可能性もありますが)。
定義
LLM: πϕ
入力プロンプト: x
任意の出力: y=w1,w2,…,wN
狙った出力: y1=w11,w21,…,wN1
語彙: V
語彙数: ∣V∣
LLMモデルの出力: logitsと呼ぶ(入力のトークン数×∣V∣ のテンソル)
logitをsoftmaxしたもの: Probabilitiesと呼ぶ(入力のトークン数×∣V∣ のテンソル)
本題
プロンプトxをLLMに与えたときに出力yを得る確率
パラメータϕを持つLLMπϕにプロンプトxを渡したときに、出力y=w1,w2,…,wNを得られる確率は下記の式で表されます。
P(y∣x,ϕ)=πϕ(y∣x)=i=1∏Nπϕ(wi∣x,w<i)
これを求めるだけなら、行けそうですね。
まずはπϕ(w1∣x)の確率を求める。
これは、LLMに入力xを渡したときの出力(logit)にsoftmax変換をさせたProbabilitiesの最後の要素から確率を求められますね。Python風に書くとProbabilities[-1][出力トークンID]
でしょうか。
πϕ(w2∣x,wq)の確率を求める。
これは、LLMに入力x,w1を結合して渡したときの、Probabilities[-1][出力トークンID]
です。
と言うように、順にトークンwiを出力させて、その確率を使えばP(y∣x,ϕ)を計算することができますね。
プロンプトxをLLMに与えたときに、狙った出力y1を得る確率
上記のように任意の出力yを得る確率P(y∣x,ϕ)は簡単に求められることがわかりました。
これはLLMを自然に実行したときに得られるProbabilitiesを使えば簡単に求められました。
では、狙った出力y1を出力する確率P(y1∣x,ϕ)を得るにはどうしたらよいでしょう。
結論、このように算出しているみたいです。
まず、LLMにx,yを結合させたものを入力し、Probabilitiesを得ます。
言葉でうまく説明できないので、ところどころPythonコード風になりますが、
Probabilities[len(x)-1][y^1の1トークン目のトークンID]
Probabilities[len(x)][y^1の2トークン目のトークンID]
Probabilities[len(x)+1][y^1の3トークン目のトークンID]
...
Probabilities[len(x)+len(y)-2][y^1のlen(y)トークン目のトークンID]
がそれぞれ、πϕ(w11∣x),πϕ(w21∣x,w11),πϕ(w31∣x,w11,w21),…,πϕ(wN∣x,w<N)に対応します。
さて、なぜx,y1を結合させたものを入力とした出力が、P(y1∣x,ϕ)となるのでしょう?
未来の情報が入ってしまって大丈夫でしょうか?
じつは、大丈夫なのです。
LLMにはCausal Attentionという、未来の情報をマスクするAttentionが使われてます。このことから、上記のようにx,y1を入力として確率を計算しても問題のです。
調査終わり。
Discussion