📆

2023/05/30 Falcon LLM, ChatGPT Plugins, DraGAN, GNNサーベイ、LLMパフォーマンス比較

2023/05/29に公開

時事ネタ 2023/05/30

最近ちょっと忙しくてサボり気味だったので先々週のネタも含めてます。

Falcon LLM

プロジェクトページ:https://falconllm.tii.ae/

概要:

  • 新たなOpen-Source LLMとしてFalcon-7B/40Bが公開された。
  • 開発元はUAE(アラブ首長国連邦)の研究機関
  • 構造はflash attention、multi-query attentionを使っているので、推論速度が速い
  • 高質なデータを使うよう工夫した
  • LLaMA等、他のOpen-Source LLMの性能を凌駕した
  • ただし、商用利用をする場合は一定額のロイヤルティを支払わなければならないとのこと

所感:

  • Open-Source系LLMのSOTAの塗り替えスピードが速い。性能向上の要因がデータの質にあるのかモデル構造にあるのかがまだ自分はわかっていないのでそこについて今度調査したい。
  • LLaMA系は申請しなければ重みは手に入らなかったが、Falconは最初から自由に使える(?)ようなのでその点は嬉しい。
  • Falconのように、Open-Sourceだけど商用利用する場合は料金が発生するタイプのLLMは今後増えそう。研究促進とビジネス応用の良い中間ポイントな気がする。

https://twitter.com/cwolferesearch/status/1662504834916929536?s=46&t=aL000Q-k1YKxDW8DPl_KLw

ChatGPT Plugins

概要:

  • ChatGPTのプラグインが公開された。
  • これについては絶対今後書くことが増えるので今回は短く。

所感:

  • スマホが出てきた当初の、「app store」的な立ち位置になるのかなぁと思ったり思わなかったり。LLMをベースレイヤーとした応用アプリケーションは今後も増えるだろうし、おそらくそこにビジネス商機がある。(特に博士進学をしたり、学術路線を極めたい、というよりもアプリ開発して社会応用したい派の人たちは、ここに漬け込むのが良いと思ってる。)

GNN サーベイ

Combinatorial optimization and reasoning with graph neural networks
論文:arxiv.org/abs/2102.09544

概要:

  • 組み合わせ最適化のためのGNN利用に関する40ページ程のサーベイ論文

所感:

  • ちょうど論文輪読でGNNを扱うところだったので保存

https://twitter.com/petarv_93/status/1362802841459523593?s=46&t=aL000Q-k1YKxDW8DPl_KLw

DraGAN

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
論文:https://arxiv.org/abs/2305.10973

概要:

  • GANで生成した画像をドラッグして編集できるというもの。これほど精巧な3次元的な回転・移動は見たことがない。

所感:

  • 拡散モデルで溢れかえっていた生成分野で久しぶりにGANが見れて良い。GANの推論速度を活かした技術の適用方法という感じがしていて良い。
  • 3次元空間での回転をこれほど精密に指示できるのがすごい。仮に3次元空間での回転に関する知識表現を獲得できているのであれば、video生成分野にも応用できそう。

https://twitter.com/_akhaliq/status/1659424744490377217?s=46&t=aL000Q-k1YKxDW8DPl_KLw

LLMパフォーマンス比較表

※後輩が紹介してくれました
プロジェクトページ:https://lightning.ai/pages/community/community-discussions/the-ultimate-battle-of-language-models-lit-llama-vs-gpt3.5-vs-bloom-vs/

概要:

  • Lightning AI社が出したLLM比較記事

所感:

  • 各LLMの(train,inference,fine-tuning)コードの公開有無に加えて、ライセンス内容はback-boneモデルについてもよくまとまっているのでわかりやすい
  • 精度比較が無いのがちょっと残念

Discussion