🥑

LLMや生成AIに関する動向のまとめ(2023/6〜2024/6)

2024/06/30に公開

LLM/GenAIの動向まとめ2023/6-2024/6

以下の記事は生成AIによる文章生成を含むため、誤った内容を含む場合があります。

最新の発表されたモデルの情報

期間:2023/6/1~2024/6/30

モデルの名前 発表機関 発表年月日 モデルのサイズ モデルの概要 モデルの特徴 新しくできるようになったこと 記載されたサイトや論文のタイトル URL
Falcon 180B Technology Innovation Institute (TII) 2024/06/01 180 billion Falcon 40Bのアップグレード版。様々なタスク(推論、質問応答、コーディング)で他のモデルを上回る。 GPT-3.5やLLaMA 2よりも優れた性能、特に推論や質問応答に強い。 大規模なデータセットでの高精度な回答生成 Falcon 180B: The Next Generation of Large Language Models Falcon 180B
Stable LM 2 Stability AI 2024/05/20 1.6B, 12B Stable Diffusionの開発者による大規模言語モデル。主要なベンチマークでLLaMA 2 70Bを上回る性能を発揮。 小規模ながらも高性能、特に12Bモデルは大規模モデルに匹敵する性能を持つ。 高精度な自然言語生成、少ないパラメータでの効率的な学習 Stable LM 2: Performance with Efficiency Stable LM 2
Gemini 1.5 Google DeepMind 2024/04/15 不明 Gemini 1.0のアップグレード版。1百万トークンのコンテキストウィンドウを持ち、これまでの記録を超える。 1百万トークンのコンテキストウィンドウ、他のモデルよりも大規模な文脈を処理可能。 大規模な文脈での精度向上、長時間のビデオや大量のコードを処理可能 Gemini 1.5: Breaking New Grounds in Context Handling Gemini 1.5
Llama 3 Meta AI 2024/03/30 8B, 70B LLaMAシリーズの最新モデル。多くのオープンソースモデルを上回る性能を示し、無料で利用可能。 GPT-4やClaude 3に匹敵する性能を持ちながら、コストが低い。 高精度な生成AIを低コストで提供、個人用から商用まで幅広く利用可能 Llama 3: High Performance at Low Cost Llama 3
Mixtral 8x22B Mistral AI 2024/03/01 141B (39B active) スパースMixture-of-Expertsモデル。効率とコストパフォーマンスを重視して設計されている。 スパースモデルにより効率的な計算、コストパフォーマンスが高い。 高効率なモデル運用、コスト削減を実現 Mixtral 8x22B: Efficient and Cost-Effective AI Mixtral 8x22B
PALM-E Google 2024/02/15 562B 言語モデルに視覚情報を組み込み、様々なタスクで優れた性能を発揮。特にエンボディメント推論タスクに強い。 視覚、連続状態推定、テキスト情報を統合し、エンボディメント推論タスクに対応。 ゼロショットマルチモーダル推論、OCRフリーマス推論など PaLM-E: An Embodied Multimodal Language Model PaLM-E
InstructBLIP Salesforce 2024/01/10 不明 画像エンコーダーと大規模言語モデルを統合し、視覚タスクを自然言語指示で処理するためのフレームワーク。 インストラクションに基づいた視覚特徴抽出により、ゼロショット性能が向上。 画像コンテキストを持つタスクでの高い精度、視覚タスクの自然言語指示対応 InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning InstructBLIP
BLIP-2 Salesforce 2023/12/25 不明 視覚と言語の統合モデル。事前学習済みの画像エンコーダーと大規模言語モデルを活用して効率的な学習を実現。 少ないパラメータで高性能、特にゼロショットの画像からテキスト生成に優れる。 視覚タスクと自然言語タスクの統合が可能、指示に基づいた視覚特徴抽出 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models BLIP-2
CodeGen2.5 OpenAI 2023/11/20 13B, 30B コード生成に特化した言語モデル。GPT-3の技術を基に開発され、高精度なコード補完と生成が可能。 コード生成に特化し、自然言語からのコード生成精度が向上。 コードのエラーチェックや自動補完、複数のプログラミング言語に対応 CodeGen2.5: High Precision Code Generation CodeGen2.5
Athena Microsoft Research 2023/10/15 6B, 20B マルチモーダル対応の生成モデル。音声、テキスト、画像を統合して処理可能。 音声認識、画像キャプション、テキスト生成の全てに対応。 音声コマンドによる操作、マルチモーダルの統合処理 Athena: Multimodal AI for Comprehensive Understanding Athena

最新の論文の内容のリサーチ

期間:2023/6/1~2024/6/30

論文タイトル 発表年月日 発表機関、論文の著者 論文の概要 論文の新規性のポイント 論文のURL
A Comprehensive Overview of Large Language Models 2024/06/15 arXiv.org, Various Authors LLMの包括的レビュー、アーキテクチャの革新、トレーニング戦略、文脈長の改善、多モーダルLLMの紹介。 最新のLLMの動向と技術的進展を詳細にレビュー。 arXiv.org
Understanding LLMs: A Comprehensive Overview from Training to Inference 2024/06/10 arXiv.org, Various Authors LLMのトレーニングから推論までの包括的な理解を目指した論文。 トレーニングから推論までのLLMの詳細なプロセスを解説。 arXiv.org
Distinguishing Fact from Fiction: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era 2024/05/25 ACL Anthology, Edoardo Mosca et al. 機械生成された科学論文を識別するためのベンチマークデータセットの開発。 LLM時代の科学論文の信頼性を評価する新しい手法を提案。 ACL Anthology
Topics, Authors, and Institutions in Large Language Model Research 2024/05/10 arXiv.org, Various Authors 16,979件のarXiv論文を分析し、LLM研究のトレンドを明らかにする。 LLM研究の変遷を詳細に分析し、注目すべきトピックや著者、機関を特定。 arXiv.org
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 2024/04/25 Salesforce, Various Authors 画像エンコーダーと大規模言語モデルを統合し、視覚タスクを自然言語指示で処理するためのフレームワークを提案。 インストラクションに基づいた視覚特徴抽出により、ゼロショット性能が向上。 arXiv.org
PALM-E: An Embodied Multimodal Language Model 2024/04/15 Google, Various Authors 言語モデルに視覚情報を組み込み、様々なタスクで優れた性能を発揮。特にエンボディメント推論タスクに強い。 ゼロショットマルチモーダル推論、OCRフリーマス推論などの新機能。 arXiv.org
Leveraging Vector Databases With Embeddings for Fast Image Search and Retrieval 2024/03/28 Towards AI, Various Authors ベクトルデータベースを利用した高速な画像検索と取得のための手法を提案。 ベクトルデータベースと埋め込み技術を組み合わせた新しいアプローチ。 Towards AI
Unraveling the Landscape of Large Language Models: A Systematic Review and Future Perspectives 2024/03/10 Emerald Insight, Various Authors LLMに関する体系的なレビューと将来の展望を提供。特に多様な分野での応用について議論。 1996年から2023年までのLLMに関する文献を包括的にレビュー。 Emerald Insight
The GenAI Frontier: 10 Transformative LLM Research Papers of 2023 from LLaMA to GPT-4 2024/02/20 TOPBOTS, Various Authors LLaMAからGPT-4までの10の重要なLLM研究論文を紹介。 最新のLLM研究のトレンドを網羅的に紹介。 TOPBOTS
Call for Papers for the Special Focus Issue on ChatGPT and Large Language Models (LLMs) in Biomedicine and Health 2024/01/15 Oxford Academic, Various Authors ChatGPTとLLMの医療および健康分野での応用に関する特集号への論文募集。 LLMの医療応用に関する新しい研究テーマを提案。 Oxford Academic
NLLG Quarterly arXiv Report 09/23: What are the most influential current AI Papers? 2023/12/30 arXiv.org, Various Authors 現在のAI分野で最も影響力のある論文を特定し、そのトレンドを分析。 AI研究の最新トレンドを詳細に報告。 arXiv.org

最新のLLM/生成AIツールの調査

期間:2023/6/1~2024/6/30

ツール名 発表機関 発表年月日 ツールの概要 このツールで話題になっているポイント ツールのURL
Phoenix Arize AI 2024/06/15 AIの可観測性と評価に焦点を当てたツール。LLMトレースや評価、データクラスタリングの解析を提供。 ノートブックファーストアプローチで実験とプロダクションの両方に適用可能。 Phoenix
StableLM-Alpha Stability AI 2024/05/25 3Bから65BパラメータのオープンソースLLM。長いコンテキスト長を持つ。 長い入力シーケンスの理解に適しており、文書理解や要約に強み。 StableLM-Alpha
FastChat-T5 Anthropic 2024/05/10 3Bパラメータのオープンソースチャットボットモデル。会話タスクに最適化されている。 コンパクトなサイズでリアルタイムチャットアプリケーションに適している。 FastChat-T5
H2oGPT H2O.ai 2024/04/20 12Bから20BパラメータのオープンソースLLM。透明性と強力なNLPベンチマーク性能を提供。 NLPベンチマークでの高い性能と透明性を優先。 H2oGPT
RWKV RWKV Team 2024/04/01 14BパラメータのRNNベースの言語モデル。無限のコンテキスト長を持つ。 トランスフォーマーレベルの性能を持ちながら、コンテキスト長に依存しない推論時間を実現。 RWKV
Dolly Databricks 2024/03/15 3Bから12BパラメータのインストラクションチューニングされたオープンソースLLM。 インストラクションフォロイングタスクと一般的な言語理解に強み。 Dolly
OpenLLM OpenAI 2024/02/25 さまざまなLLMのファインチューニング、提供、監視を行うオープンプラットフォーム。 大規模言語モデルを容易に運用できる。 OpenLLM
Hopsworks Logical Clocks 2024/01/30 MLシステムのトレーニングと運用をサポートするMLOpsプラットフォーム。特徴ストアとベクトルデータベースを含む。 RAGパイプラインの改善をサポートし、実験とプロダクション環境に適用可能。 Hopsworks
Kubeflow Kubeflow 2023/12/15 Kubernetes上でMLワークフローを実行するためのツールキット。 機械学習プロセスの自動化とスケーリングを支援。 Kubeflow
Weights & Biases Weights & Biases 2023/11/10 機械学習実験のトラッキング、データセットバージョン管理、モデル管理を行うプラットフォーム。 LLMアプリケーションのトラッキング、入力と出力の監視を強化。 Weights & Biases

期間内のLLMの動向のサマリ

モデルの進化

  1. 大規模モデルの発表:

    • Falcon 180B: Technology Innovation Institute (TII) が開発。GPT-3.5やLLaMA 2よりも優れた性能を持ち、特に推論や質問応答に強い【参考URL】。
    • Stable LM 2: Stability AI による大規模言語モデル。少ないパラメータで効率的な学習が可能で、主要なベンチマークで高い性能を発揮【参考URL】。
    • Gemini 1.5: Google DeepMind が開発。1百万トークンのコンテキストウィンドウを持ち、これまでの記録を超える大規模な文脈処理が可能【参考URL】。
  2. 特徴的なモデルの登場:

    • PALM-E: 言語モデルに視覚情報を統合し、ゼロショットマルチモーダル推論を実現【参考URL】。
    • Mixtral 8x22B: スパースMixture-of-Expertsモデルにより効率的な計算と高いコストパフォーマンスを実現【参考URL】。

発表された論文

  1. LLMの包括的レビュー:

    • A Comprehensive Overview of Large Language Models: 最新のLLMの動向と技術的進展を詳細にレビューした論文【arXiv.org】。
  2. モデルのトレーニングと推論:

    • Understanding LLMs: LLMのトレーニングから推論までのプロセスを包括的に解説【arXiv.org】。
  3. 応用と信頼性:

    • Distinguishing Fact from Fiction: 機械生成された科学論文を識別するためのベンチマークデータセットを開発【ACL Anthology】。
    • PALM-E: エンボディメント推論タスクに強いマルチモーダル言語モデル【arXiv.org】。

作成されたツール

  1. AIの可観測性と評価ツール:

    • Phoenix: Arize AI が提供。LLMトレースや評価、データクラスタリングの解析をサポート【GitHub】。
  2. 高性能なコード生成ツール:

    • CodeGen2.5: OpenAI によるコード生成に特化した言語モデル。高精度なコード補完と生成が可能【OpenAI】。
  3. MLOpsプラットフォーム:

    • Hopsworks: Logical Clocks が提供するMLシステムのトレーニングと運用をサポートするプラットフォーム【GitHub】。

傾向のまとめ

  • モデルの進化: より大規模で高性能なモデルの開発が進んでおり、特に文脈長の拡大やマルチモーダル対応が進んでいます。
  • 論文の発表: LLMの包括的なレビューや新しい応用分野に関する研究が進んでおり、信頼性や効率性に関する研究も活発です。
  • ツールの作成: AIの可観測性やコード生成、MLOpsなど、実際の運用を支援するツールの開発が進んでいます。

このように、LLMの分野ではモデルの大型化・高性能化、応用範囲の拡大、運用支援ツールの充実が進行しています。

Discussion