🙆‍♀️

32パラメータでLLMと同等? LANGUAGE AS KERNELS! (暫定)

に公開

前書き

  • 32パラメーターで既存llmと同等?と衝撃な記事を金曜日見た!昨日、関連論文これじゃねって投稿みて、今日午後から論文読んだり、geminiに聞いたり、似た感じで動かしてみた!
  • 今の自分の理解(こんな感じかな)でこの論文書く

1. どんなもの?

  • 要はめっちゃ強い軽いAIの作り方論文。作る過程でLLMを使う。対象タスク領域はせまい。
  • LLMのあるタスク能力をカーネルマシンに転写+性能up
  • LLMの0ショット学習とkernelマシンの内部動きは数学的に同等?ってことを主張
  • カーネルマシンなので、軽量に速く動く!スマホも全然OKと思われる。
  • SVMとLLMの組み合わせが匠な感じ

2. 先行研究と比べてどこがすごいの?

  • LLMの計算量、コストを同じタスクやるのに大幅削減
  • 性能も上がっている
  • 非力なパソコンしかもっていない自分でも、LLMに匹敵するAIを作れそう!完全再現ではないが、試せた!動いた!

3. 技術や手法の"キモ"はどこにある?

  • LLMで微妙な難しい学習データ作ってもらい、SVMでラベルはつくり、SVMも学習しつつ、いいのだけ厳選してカーネルマシン動かすみたいなのを繰り返す

4. どうやって有効だと検証した?

  • GLUE benchmarkdでLLMとランダムとで比較!勝っている

5. 議論はあるか?

  • LLMが何でもできるって頭から、カーネルマシンの特性活用して、コスト低く性能だすの作るいい論文
  • ベースモデルもSVMに作ってあげたサンプル数分は、ファインチューニングしないと公平な比較にならない気がする
  • いい感じでタスクがどれだけあるか気になる。ひろげながら、問題ぶつかったらだれかが解決していくのか?
  • 単純にLGBMとかなんか組み合わせでいいのほかにないのかな?
  • スマフォとかで、リアルタイムで、相手の感情を表示するアプリ。自動車に乗せるデバイスでリアルタイムに危険予測とかできそう!
  • PRTIMESのが、これなら、ちょっと夢膨らませすぎな文章だけど、これは、これで、インパクトでかくなりそう!
  • これに関連してアイデアがいくつもでるので、記事の会社におくってみるつもり、またエナジートランスフォーマーみたいになしのつぶてなら、ここに公開するつもり!

あとがき

記事よかったら、いいね♡ 押してね!フォローも嬉しい!

Discussion