イベントに登壇してきた話【資料もこちら】
注意事項
登壇してきました!
東京AI祭の方に私の記事を見つけていただき、本日講演をさせていただきました!
招待をしてくださった金澤さん、そして一緒にご登壇してくださった、ぬこぬこさん、尾原さん、そして本日わざわざ聴きにきてくださった皆様方、本当にありがとうございました!
この場を借りて、お礼申し上げます。
懇親会では、SNSでよく見かけるような方から、(自分では考えられないくらい)優秀な学生さんとお話しすることができて、とても刺激的でした!
(何よりぬこぬこさんに会えた!行ってよかった!本当に登壇してくださってありがとうございます!)
本日の資料
本日登壇に利用した資料は下記にて公開しております。ぜひご覧ください。
また、本資料は下記の記事をベースに作成しております。
また、本資料は下記のテンプレートを利用させていただいて作成しました。
ある程度ざっくり作ってもそれっぽく見えるとても優秀なテンプレートです。ありがとうございます。
資料に関しての注意事項
ここからは私の保身のための内容です。
まず第一に、本資料の営利目的、商用目的、企業内での利用はご遠慮ください。
上記範囲で、利用を見つけましたら(証跡とともに)、ご連絡ください。
一方で、教育・研究目的(企業内利用、商用利用を除く)での利用の場合は、(そのコミュニティ内に閉じて)お好きにご利用ください。
なお、その場合も厳密性を犠牲にしていることに留意して、あくまでの理解の手助けとしてご利用ください。
なお、本資料を「参考にして」、似たような資料を自作することは問題ありません。
しかしその場合、「asapの資料にこう書いていた」や「asapの資料を引用・流用した」などの記載・発言はご遠慮ください。
(あくまで作成者の責任のもと、資料を作成してください)
厳密性を犠牲にしている箇所(一例)
全てではないですが、本資料において大きく厳密性を犠牲にしている箇所を下記に記載いたします。
(詳細に解説はせず、メモ書きとして記載するので、気になる方はお調べください)
5ページ目
DeepSeek-V2やV3にて提案されている手法はこれらだけではないです。
24ページ目
PPOの学習には、参照モデル(強化学習前のLLM)が必要です。
強化学習前のモデルと、現在強化学習実施中のモデルにおいて、出力のKLダイバージェンスが正則化項として目的関数に導入されています。
28ページ目
状態価値モデルの解説について、本質は外していないと思いますが、厳密かと言われると自信はありません。
他のページにも通ずることですが、数式(状態価値モデルの損失関数)をご覧ください。
29ページ目
Advantageは厳密には、報酬と期待値との差ではありません。
厳密には、1ステップTD誤差からnステップTD誤差までを、重みつき荷重和で足し合わせたものです。
ただし、大雑把な議論として、累積報酬とその期待値との差として考えても本質は外していないはずです。
また、PPOの貢献は、Advantageを用意したことではありません。それはもっと前の手法から登場しています。
あくまでPPOの貢献は、LLMを更新するタイミングにおいて、更新前後で大きな変化を起こさないように目的関数の値をclipすることにあります。
(が、その話は理解の邪魔になると考えたため、あえて言及していません)
38ページ目
DPOは強化学習の手法ではありません。
最後に
言い訳じみた記事になってしまいましたが、本資料が一人歩きして誤解が広がることが最も怖いです。
上記ご理解のほど、よろしくお願いいたします。
Discussion