📝

LLMメモをサクッと整理

に公開

1. OpenAI 系列

GPT-4o & GPT-4.1

  • GPT-4o:複雑な推論・高精度タスク向け。マルチモーダル(画像/動画対応)。
  • GPT-4o-mini:要約・翻訳など軽量タスク向け。GPT-3.5の後継。
  • GPT-4.1(2025年中):速度・コスト効率改善。精度とリソースのバランス◎。汎用〜高度用途まで対応。

o1 & o3 系列 — AGIに最も近い?

  • o1(2024年9月):超高精度・超高コスト(GPT-4o-miniの30倍以上)。
  • o3(2025年初)
    • ARC-AGI:87.5%(人間トップは87%)→ AGIレベルと評価。
    • Frontier Math:25% 解ける(従来モデルは2%未満)。
    • 競プロ:99%(人間トップは100%)。

2. Google 系列

Gemini 1.5 → 2.0 → 2.5

  • Gemini Ultra:1時間動画・11時間音声・70万語処理可能(最大1000万トークン!)。
  • Gemini 2.0 Flash(2024年12月):1.5 Proの2倍高速、マルチモーダル+TTS。
  • Gemini 2.5 Pro(2025年5月)
    • 推論・応答速度・多言語サポート強化。
    • Googleエコシステムと深く統合。

LangChain は langchain-google-genai で対応。

Gemma(Geminiの軽量オープン版)

  • 2B / 7B パラメータ。
  • NVIDIA GPU / Google TPU で動作。
  • ファインチューニング・推論用ツールキット付き → 研究・軽量用途に最適

3. Anthropic — Claude 系列

  • Claude 3.7(2025年2月)
    • Sonnet:GPT-4.1 / Gemini 2.5 Pro と同等。
    • Haiku:GPT-4o-mini と同等 → 高速・軽量。
  • 安全性・正直さ重視。10万トークンコンテキスト(当時最大)。

langchain-anthropic で利用可能。

4. Cohere — 企業向け特化

  • 元Google Brainメンバー創業。
  • 精度・一貫性が強み。Jasper・Spotify採用。
  • パラメータ:6B〜52B。
  • コスト高め(OpenAI比)。

langchain-cohere で利用。

5. Meta — Llama 系列

  • Llama 4(2025年4月)
    • Scout:109B、マルチモーダル、1000万トークン。
    • Maverick:400B、推論最適化。
    • Behemoth:2Tパラメータ(訓練中)→ ベンチマーク突破狙い。
  • オープンだが商用利用に制限あり

LangChain は GPT4All / Ollama で対応。

6. Falcon 3(2024年12月)

  • 10Bモデルが Qwen 2.5 7B / Gemma 9B と同等性能。
  • MATHベンチで勝利 → 数学タスクに強いオープンソースモデル。

7. Mistral AI — 高効率オープンソース

  • Mixtral 8x7B / 8x22B:MoEでコスト効率◎。
  • Mistral Medium 3(2025年5月):企業向け、ハイブリッド展開対応。
  • 急速に台頭中。スケーラブル&安価

8. Qwen(Alibaba)

  • 1.8B〜72Bパラメータ。
  • Code-Qwen / Math-Qwen などタスク特化版あり。
  • 中国語・英語に強い。コンテキスト長:30,000トークン。

9. Grok(xAI / Elon Musk)

  • Grok 3(2025年2月)
    • 計算リソース10倍。
    • 「Think」「Big Brain」推論モード。
    • 「DeepSearch」でリアルタイム検索。
  • Grok 3.5(2025年5月):RAG再設計、技術推論強化。
  • Microsoft Azure でエンタープライズ提供開始。

10. Phi-3 系列(Microsoft)

  • 小型言語モデル(SLM)の最強クラス。
  • Phi-3-mini(3.8B) → 2倍サイズのモデルと同等性能。
  • Phi-3.5-MoE(最新)
    • コード・数学・論理に特化。
    • 128Kトークン、多言語対応。
    • メモリ・遅延制約環境に最適。

Azure AI Studio / Hugging Face / Ollama で利用可。

11. DeepSeek(中国発)

  • DeepSeek-V3
    • MoE、671Bパラメータ(活性化37B/トークン)。
    • 14.8兆トークンで訓練 → コストは**$6M未満**(驚異的効率)。
  • DeepSeek-R1
    • o1と競合。チェーン・オブ・ソート推論。
    • 訓練コスト:$5.6M → 持続可能性議論の火種に。
  • 政治的トピックは回避 → プライバシー・地政学的懸念あり。

中国AIの台頭を象徴する存在。

Discussion