🙆♀️
32パラメータでLLMと同等? LANGUAGE AS KERNELS! (暫定)
前書き
- 32パラメーターで既存llmと同等?と衝撃な記事を金曜日見た!昨日、関連論文これじゃねって投稿みて、今日午後から論文読んだり、geminiに聞いたり、似た感じで動かしてみた!
- 今の自分の理解(こんな感じかな)でこの論文書く
1. どんなもの?
- 要はめっちゃ強い軽いAIの作り方論文。作る過程でLLMを使う。対象タスク領域はせまい。
- LLMのあるタスク能力をカーネルマシンに転写+性能up
- LLMの0ショット学習とkernelマシンの内部動きは数学的に同等?ってことを主張
- カーネルマシンなので、軽量に速く動く!スマホも全然OKと思われる。
- SVMとLLMの組み合わせが匠な感じ
2. 先行研究と比べてどこがすごいの?
- LLMの計算量、コストを同じタスクやるのに大幅削減
- 性能も上がっている
- 非力なパソコンしかもっていない自分でも、LLMに匹敵するAIを作れそう!完全再現ではないが、試せた!動いた!
3. 技術や手法の"キモ"はどこにある?
- LLMで微妙な難しい学習データ作ってもらい、SVMでラベルはつくり、SVMも学習しつつ、いいのだけ厳選してカーネルマシン動かすみたいなのを繰り返す
4. どうやって有効だと検証した?
- GLUE benchmarkdでLLMとランダムとで比較!勝っている
5. 議論はあるか?
- LLMが何でもできるって頭から、カーネルマシンの特性活用して、コスト低く性能だすの作るいい論文
- ベースモデルもSVMに作ってあげたサンプル数分は、ファインチューニングしないと公平な比較にならない気がする
- いい感じでタスクがどれだけあるか気になる。ひろげながら、問題ぶつかったらだれかが解決していくのか?
- 単純にLGBMとかなんか組み合わせでいいのほかにないのかな?
- スマフォとかで、リアルタイムで、相手の感情を表示するアプリ。自動車に乗せるデバイスでリアルタイムに危険予測とかできそう!
- PRTIMESのが、これなら、ちょっと夢膨らませすぎな文章だけど、これは、これで、インパクトでかくなりそう!
- これに関連してアイデアがいくつもでるので、記事の会社におくってみるつもり、またエナジートランスフォーマーみたいになしのつぶてなら、ここに公開するつもり!
あとがき
記事よかったら、いいね♡ 押してね!フォローも嬉しい!
Discussion