🎉

言語拡散モデル LLaDA (暫定)

に公開

初めに

LLaDAの話を勉強会できいた。
gemini 拡散モデルが使えるようになるらしいことも聞いた。
なので、この土日、LLaDAについて自分でも調べて論文読み始めた。本当はgeminiの読みたいが見つからなかったので。

拡散モデルを言語モデルに適用するのが、良さそう、次単語予測は決してよくはなさそうとは前のスクラップにも書いたが自分でもおもっていた、そういう研究がまあまああることはその後残念ながら知ったが、今回これを知った。
今の自分の理解レベルだと、自分が思っていた適用法より陳腐、見方によっては、マスクモデルのイテレーションを増やしただけに見える。それでも良さはでるのだろうけど。
googleを一回でも負かして、GAFAMの一角に入ろうと思う方、自分にモデル作らせてほしい!

今まで

1)が生成モデル原則 2)が主流な使用モデル

処理詳細

1 マスクしたトークンを全部予測(長いと半自己回帰的に)
2 再マスク化(確率が低いのを優先的に等)
3 1に戻る(n回)

性能、スケール

一部負けているようにも見えるが性能も良さそう、特にスケール性は高そう


当たり前だと思うが、逆転問題強い

あとがき

記事よかったら、いいね♡ 押してね!

Discussion