💡

[2024年6月21日]週刊AI・WEB開発関連記事まとめ

2024/06/21に公開

こんにちは、Kaiです。
いやあ、久々にBig Techからの爆弾が来ましたね。
Claude 3.5 Sonnet、昨夜突然発表されましたが一斉に話題を持っていきました。

いや、よく考えるとGPT-4oから1ヶ月後を「久々」と感じるのがおかしいような気も……?

注意事項

  • 先週収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

特定AIサービス

Claude: Claude 3.5 Sonnet

私も早速使っていますが、特に創造的タスクで性能が向上している印象です。
Bedrockでも即日使用できるようになったため、業務システムへの組み込みも検証中です。
https://www.anthropic.com/news/claude-3-5-sonnet

(Bedrockでの利用例)
https://qiita.com/minorun365/items/cd46235d5e446b1f41c5

Nemotron: Nvidia製オープンLLM

340Bの巨大モデル。APIは公開されておりクレジットベースで使用可能のようです。
うみゆきさんの報告によるとプロプライエタリの最強モデルに匹敵するもよう。
Nvidiaは計算量を必要とするモデルが広まれば広まるほどGPUで儲かるので、オープンで出していくインセンティブがありそう。
https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/
https://atmarkit.itmedia.co.jp/ait/articles/2406/19/news047.html
https://x.com/umiyuki_ai/status/1803112240935260328

Gemini: Gemini について全部解説! 使い方やモデル、プランまで

Gemini公式アカウントによる解説。正直、プランとモデルの差はよく分からんところもあったのでありがたいです。
https://note.com/google_gemini/n/ncd7557d98d07

その他AI系話題

OSSモデルを統合することでGPT-4oに匹敵する性能を示す新アーキテクチャ

プレプリント。「Mixture-of-Agents(MoA)」と名付けられたアーキテクチャに関する論文です。
弱いモデルでも、他のモデルの出力を参考にさせることで、統合した出力が非常に強くなるとのこと。
これ、実質的に後述のエキスパートアダプタ―と同じような役割になってるのかもしれませんね。
https://ai-data-base.com/archives/71419

【サーベイ論文まとめ】RAG(Retrieval-Augmented Generation)

RAG関連のサーベイ論文を日本語でまとめてくださっています。派生手法が多岐にわたるので、概観するにはちょうどよさそうです。
https://qiita.com/LiberalArts/items/121a846cc59098812c77

アラインメントによりLLMは創造性を失う

プレプリント。RLHFなどの手法でアラインメントされることにより、LLMの出力は特定のクラスタに集中して当初存在した創造性が失われるとのこと。
結局おとなしくしろと調教されているわけですから、やむを得ない側面もあるのでしょうね。
となると、やはりローカルLLMのメリットがさらに強調されていくかも?
https://arxiv.org/abs/2406.05587

LoRAなどを用いて作成したエキスパートアダプターを利用し精度を向上

事前に、知識に特化したアダプターを多数作成しておき、問題に応じてそのアダプターを付け替えることで精度とハルシネーション発生率を大幅に向上させたとのこと。
RAGが知識そのものを組み込むのに対し、知識を内部化したミニAIを接続するイメージでしょうか。確かに良さそうですが、アダプターをどういった単位で作成するか、どのアダプターを選択するかあたりに、職人技が必要になりそう。
https://www.lamini.ai/blog/lamini-memory-tuning

行列計算を行わないLLM

プレプリント。LLMで取り扱われる行列は多くがSparseであることに着目し、MatMulの計算をSparse Operationの計算に置き換えることで大幅な高速化とメモリ削減を実現したとのこと。
https://arxiv.org/pdf/2406.02528

世界初の対話型病理AI「PathChat」

Nature論文。約100万の病理画像と文章のペアを学習したAIで、対話的に操作可能。
https://www.nature.com/articles/s41586-024-07618-3

日本語音声を無料で多言語のAI音声に変換できる「Cross-Language TTS」

デモを見る限りかなり良いですね。事前収録のビデオなどは、多国語提供のハードルが低くなりそう。
https://prtimes.jp/main/html/rd/p/000000082.000078329.html

AIが作る3Dモデルの完成度が上がってきた 毎回異なるモンスターが生成されるゲームも実現か

3Dモデルの自動生成は最近アツいですね。
ただ、ゲーム上での実装となると物理シミュレーションや変形のためのリトポやボーン入れ、リギングなど様々な要素が絡んでくるので、2Dと異なり一発出しでOKとはいかないようにも思えます。
(記事中でもボーン入れて試していますね)
https://ascii.jp/elem/000/004/204/4204441/

CareNet Engineers

Discussion