2024年生成AIの進歩まとめ
こんにちは!逆瀬川 ( https://x.com/gyakuse ) です!
生成AI Advent Calendar 2024の記事を書くの忘れていたので、現時点での生成等AIの進歩をまとめてみました!今日はAIがいまなにできんの?ってこと聞かれたときにこれできるよ!って教えるためのメモとして活用してください!また、生成AIプロダクト Advent Calendar 2024というのもソロでやっています。このカレンダーではLLMの基礎理論からModelのFine-Tuning、プロダクト開発等をまとめています。ぜひこちらも見てください!
未来を感じる技術の進歩
インタラクティブな動画生成では、Genie2 (WASDと方向キーで操作可能な世界モデル)が非常に革新的な進歩を遂げています (振り返っても一貫性を保つ長期性が本当にすごい)。
物理シミュレーションではGenesisが登場しました。
創薬分野ではノーベル賞も受賞したタンパク質構造予測システムであるAlphaFoldの新しいバージョン: AlphaFold3が登場しました。従来のMSA+Evoformerモジュールからの構造予測ではなく、Pairformerから拡散モデルを使った構造予測をするようになっています
ロボティクス分野では自然言語での指示・対話・柔軟なアクションの設計・実行ができるロボットが増えています。まだ発展途中ですが、OpenAIも投資する1xでは家庭向けロボットNeoを開発しています。
普段の仕事に直結しそうな技術の進歩
1. 仕事の効率向上
1.1 マルチモーダルモデルの一般化
2024年はマルチモーダルモデルが一般化し、かつより賢くなり、返答速度が非常に速くなったことが大きな変化として最初に挙げられます。これによって、画像や音声をもとに質問応答を気軽に行うことができるようになりました。
主なモデル:
- ChatGPT: 4o
- Gemini: gemini-1.5-pro
- Claude: Claude-3.5-Sonnet
どんなことができるようになったか:
- Excelでわからないことがあったら、スクショして聞けば済むようになった
- PDFをぶんなげて質問応答が気軽にできるようになった
使用例:
1.2 熟慮するモデルの登場
ChatGPTのo1をはじめとする熟慮をするモデルが登場したことによって、いままで短絡的な解答により誤りが発生していたケースを防ぐことができ、またいままでなら複数の会話の応答でやっと到達していた深い結論にゼロショットで到達できるようになりました。
o1は推論時間が長いため (30秒〜1分程度)、使い分けとしては、基礎モデルで解答困難な場合はo1に投げると良いでしょう。
主なモデル:
- ChatGPT: o1, o1 Pro
- Gemini: Gemini 2.0 Flash Thinking Experimental
どんなことができるようになったか:
- 複雑な問題に対してのより深い検討
使用例:
小説のアイデア比較:
- 4o: https://chatgpt.com/share/676733af-7bd0-800d-9aa3-9e2e10da7c05
- o1: https://chatgpt.com/share/676733a4-3b24-800d-b2c2-f61303bb22c3
2. プログラミングの効率化
2.1 開発効率化アプリの浸透
CursorやGitHub Copilotを用いると、非常に効率的にプログラミングを行うことができます。現状、プロジェクトの規模が非常に大きくなるとCursorのようなものは恩恵が小さくなりますが、そのうちいい感じになるはず!とりあえずの人はGitHub Copilotがおすすめです (無料で神です)。
主なツール:
2.2 プログラミング能力の高いモデルの登場
o1 の登場によって、プログラミング能力も向上しました。体感としてはミスの少ない実装ができるようになったと感じます。思考をするべき部分がより抽象的な部分になっていき、その抽象的な部分 (アイデア等) も担保してくれるようにいずれはなるでしょう。
主なモデル:
- ChatGPT: o1, o1 Pro
使用例:
3. 調査の効率化
検索とLLM(あるいはマルチモーダルモデルともいう)を組み合わせると調査タスクが効率化し、従来リサーチ業務として行っていた活動について部分的または全体を置き換えることが可能となります。この分野はまだまだ発展途中ですが、特にNotebookLMは実務でも使えるレベルに達してきました。
主なツール:
使用例:
DeepResearchを使うとこちらのようなレポートがすぐ作成できます: レポート例
詳細はAppendix参照のこと
2025年以降はどのような革新がありうるか
来年すでに予定されている主要なもののひとつにGoogleのProject Astraのメガネ型デバイスがあります。
主に期待される製品としては以下のようなものがあるでしょう:
- AIベースのデバイス・AIアシスタント (スマートフォン、メガネ型デバイス)
- 汎用 / 特定領域向けのエージェント (みんなだいすきだけど, ちゃんと社会にフィットするものはめちゃくちゃ難しい. UIUXはもちろん、全部自動化できない場合は、ワークフローのデザインも大事)
また、o3の登場により、人間程度、あるいは超知能が実現され、大きな社会変革が期待されますが、以下の課題が残っています。
- 長いコンテキスト (テキスト形状だけでなく、動画等含めて) の理解、あるいはRAG的な手法の改善
- 推論コストの低減
- ロボティクスとの連動
主な会社の発表
OpenAI
npakaさんのまとめを参考に時系列で見ていきましょう。
- 5/13 GPT-4o: マルチモーダルかつGPT-4より高速なモデル
- 9/12 o1-preview: 熟慮をすることで推論能力が格段に向上したモデル
- 9/25 Advanced Voice: 滑らかな音声対話をすることができる高度な音声モード、Realtime APIとしても提供され、誰でも高度な音声対話型のチャットボットが作れるように
- 12/5 ChatGPT Pro: 月200ドルでo1を無制限に、またo1 Proを使うことができるより高額な課金体系
- 12/9 Sora: 動画生成サービス。最大20秒まで (1080pの場合10秒まで) 作ることができる
この中では個人的にはo1-previewおよびo1 Proが非常にインパクトの強いものとしてありました。
こちらもnpakaさんのまとめを参考に時系列で見ていきましょう。
- 2/16 Gemini 1.5: GPT-4oのような非常に優秀なモデル
- 2/21 Gemmaシリーズ:
- 5/8 AlphaFold 3
- 5/14 Project Astra: スマートフォンとAIグラスに対応したAIアシスタント (開発中)
- 6/27 Gemma 1.5 Proの最大コンテキスト長が200万トークンに拡張
- 12/4 Genie2
- 12/11 Deep Research
- 12/13 NotebookLM Plus: Notebook LMの
- 12/14 Agentspace
- 12/16 Veo2, Imagen3
- 12/17 Gemini 2.0 Experimental Advanced
その他
- 10/23 Computer Use
公開されたライブラリ等
以下では注目しているライブラリ群をみていきます。個人的な興味に基づいているため、偏りがあります。また、基本的に事前学習済みモデルが提供されているものとなります。
- 生成モデル
- テキスト
- 音声
- 3D (3Dモデル, シーン)
- https://github.com/yanghb22-fdu/Hi3D-Official
- https://github.com/facebookresearch/vfusion3d
- https://github.com/pkunliu/Isotropic3D
- https://github.com/thu-ml/CRM
- https://github.com/VAST-AI-Research/TripoSR
- https://github.com/heheyas/V3D
- https://huggingface.co/stabilityai/sv3d
- https://github.com/3DTopia/3DTopia-XL
- https://github.com/3DTopia/LGM
- https://github.com/SOTAMak1r/GVGEN
- https://github.com/NIRVANALAN/GaussianAnything
- https://github.com/wenqsun/DimensionX
- 動画
- https://huggingface.co/THUDM/CogVideoX-5b
- https://github.com/AILab-CVC/VideoCrafter
-
https://github.com/ali-vilab/VGen
- InstructVideo
- DreamVideo
- TF-T2V
- VideoLCM
- https://github.com/Vchitect/Vlogger
- https://github.com/HumanAIGC/AnimateAnyone (2024ではないが)
- LLM
- MLM
- speech-to-speech
- Audio
- ASR
- whisper-large-v3-turbo
- ASR
- Vision
- 深度推定
- 物体検出
- 画像復元
- 動画理解
- 時系列予測
- サーベイ
- https://huggingface.co/thuml/timer-base-84m
-
https://huggingface.co/amazon/chronos-bolt-base
- Chronos-Boltモデルは、Chronosモデルよりも5%精度向上、最大250倍高速化、20倍メモリ効率化を実現した時系列予測モデル
- https://huggingface.co/amazon/chronos-t5-large
- https://huggingface.co/google/timesfm-1.0-200m
- https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2
- https://github.com/kwuking/TimeMixer
- MoE
- データセット
- 推奨記事
- Mamba
Appendix
Deep Research
Gemini 1.5 Proを用いて自動的にレポートを作成してくれる機能。
PerprexityやSearchGPTのような浅い探索ではなく、調査計画を元に非常に多くの記事を収集し、一つのレポートとしてまとめてくれます (Perprexityは計画部分はちゃんとしているが、収集規模が小さく、浅い探索になりがち)。
処理の流れ:
(1) 計画立案
(2) 検索
(3) レポート出力
出力されたものはGoogle Docファイルとして保存可能: サンプル
課題
- ヒットした記事の内容 (特に上位にヒットしたもの) に引っ張られやすすぎる
- 一見、80点程度ありそうに見えるが、実務上はあまり使えない (実務の性質にもよるが、個人的にはレポート依頼プロンプトを調整したり、探索範囲を絞るような依頼でもかなり厳しい場合が多い → 特定のドメイン以下の特定分野に絞る等)
- 日本語だからそうというわけでもない (元は英語のみ対応だったので、英語中心で使ってみていた)
- キュレーション戦略をプロンプトでしっかり定義してあげると良いかも (つまり、調査依頼者が対象領域に対して十分理解しているとうまく働く
ただ、これはそもそも工夫次第でなんとかなるので、改善は早いとみています。個人的に特定領域用のDeep Searchみたいなものを作ったことがあるが、それはうまく動きました。結局多言語かつ汎用的に作るのは難しいという話でもあります。
NotebookLM (Plus)
Deep Researchが直接調査を行ってくれるものだとしたら、NotebookLMは調査をサポートしてくれるサービスといえます。任意のソース (URL, PDF, .txt, .mp3等の各種ファイル, Googleスライド, Google ドキュメント等) をもとにチャットや学習ガイド生成等を行ってくれます。まだ英語のみだが、ポッドキャスト生成も行ってくれます。主に学習や研究の補助といった意図が強い。類似サービスとしては、ChatGPTのやClaudeのProjectが挙げられます。
また、大量のソース (Plusでは最大300) を登録できるため、簡易RAGチャットシステムとしても使える。企業向けのチャットはほとんどこれで賄える気がします。
Discussion