🔖

LLMリリース情報まとめ:GW期間に羽を伸ばした君へ

に公開

こんにちは!kirigayaです
みなさんGWはどこかへ旅行に行ったり、帰省したりと楽しい時間を過ごすことができたでしょうか?
GW中おもに4月の26日から5月6日までに新しいモデル、新しいツールなど色々なリリースがありました!
少しでも浦島太郎状態を脱する手助けになればと思います
※動画、音楽、画像生成系サービスはこの記事に含まれていません...

それではさっそく見ていきましょう

LLM

Alibaba - Qwen3

AlibabaはQwen3を発表しました。このファミリーは、0.6Bから235Bパラメータまでの8つのモデルで構成され、高密度モデルと混合エキスパート(MoE)モデルの両方を含んでいます。フラッグシップモデルはQwen3-235B-A22B
Dense:0.6B、1.7B、4B、8B、14B、32B
MoE:30B-A3B、235B-A22B

  • 思考モードと非思考モードを単一モデル内でシームレスに切り替え、多様な状況で最適な性能を発揮
  • 数学、コード生成、常識的な論理的推論において、従来のQwQ(思考モード)およびQwen2.5 instruct(非思考モード)モデルを大幅に上回る推論能力
  • 創造的な文章作成、ロールプレイング、複数ターンの対話、指示理解において、より自然で魅力的、没入感のある会話体験
  • 思考モードと非思考モードの両方で外部ツールとの正確な連携を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中で最高の性能を発揮
  • 100以上の言語と方言をサポートし、多言語での指示理解と翻訳において強力な能力を発揮

ブログ
モデル


Amazon Nova Premier

Nova Premierは、既存のNova LiteやProと同様にテキスト、画像、動画(音声を除く)を入力として処理できます。100万トークンという広大なコンテキスト長を持ち、非常に長い文書や大規模なコードベースの処理が可能です。特に、深い文脈理解、複数ステップの計画、複数のツールやデータソースを横断した正確な実行が求められる複雑なタスクで高い能力を発揮します
ブログ

項目 詳細
モデルの位置づけ Amazon Novaファミリーで最も高性能なモデル
得意なタスク 複雑なタスク、深い文脈理解、複数ステップの計画、複数ツール/データソースを横断した正確な実行
入力形式 テキスト、画像、動画(音声は除く)
コンテキスト長 100万トークン
ベンチマーク 17のベンチマークでNovaファミリー最高性能。同等インテリジェンス層の他社モデルと比較しても約半数で同等以上
速度・コスト 同等インテリジェンス層において、Amazon Bedrock上で最速かつ最もコスト効率が良い
モデル蒸留 Nova Pro, Lite, Microの教師モデルとして機能。Premierの能力を小型モデルに移転可能
蒸留効果例 Nova Proを蒸留し、API呼び出し精度がベースモデル比で20%向上
主なユースケース マルチエージェント・コラボレーション(スーパーバイザー役)、長文/大規模コード処理、複雑な分析・推論
安全性 責任あるAI利用を促進するための組み込みの安全制御、コンテンツモデレーション機能
利用可能リージョン 米国東部(バージニア北部)、米国東部(オハイオ)、米国西部(オレゴン) (Amazon Bedrock経由)

Microsoft - Phi-4

MicrosoftはPhi-4の新しいモデルを発表しました。
ブログ
モデル

  • Phi-4-reasoning および Phi-4-reasoning-plus

    • 効率的でありながら、複雑な推論タスクを実行できる能力を持つように設計されています
    • 数学や科学分野で強力な推論能力を発揮し、多くのベンチマークでより大きなモデルを上回る性能を示します
  • Phi-4-mini-reasoning:

    • 計算リソースが限られた環境での数学的推論に最適化
    • 教育アプリケーションや軽量なデプロイに適している
Feature Phi-4-mini-reasoning Phi-4-reasoning / reasoning-plus (14B Base)
Architecture 3.8B params, Dense decoder-only Transformer (ベース: Phi-4-Mini). 200K vocab, GQA, 共有埋め込み. 14B params, Dense decoder-only Transformer (ベース: Phi-4).
Inputs テキスト (チャット形式推奨) テキスト (チャット形式推奨)
Context length 128K トークン 32k トークン
GPUs 128 x H100-80G 32 x H100-80G
Training time 2 日間 2.5 日間
Training data 150B トークン 16B トークン (~8.3B ユニーク)
Outputs 生成されたテキスト 生成されたテキスト (推論CoTブロック + 要約ブロック)
Dates (Trained) 2024年2月 2025年1月 – 2025年4月
Status 静的モデル (オフラインデータセット、公開データカットオフ: 2025年2月) 静的モデル (オフラインデータセット、公開データカットオフ: 2025年3月以前)
Supported Lang 英語 (記載なし)
Release date 2025年4月 2025年4月30日
License MIT MIT

DeepSeek - DeepSeek Prover2

DeepSeek-AIは数学の定理を形式的に証明する能力を飛躍的に向上させた新しい大規模言語モデルDeepSeek-Prover-V2を発表しました 。
DeepSeek-Prover-V2の開発プロセスは基盤モデルDeepSeek-V3を用いて、難解な数学の問題をより扱いやすい一連の「サブゴール」へと分解します 。次に、これらのサブゴールを別の専用AIが効率的に解決し、最終的に元の問題に対する厳密な形式的証明を再構築します 。  
AIが問題を解く際の思考プロセス(Chain-of-Thought)と、実際に生成された形式的証明データを組み合わせ、強化学習によってモデルの推論能力をさらに洗練させます。これにより、人間の数学者が持つ直感的な思考と、コンピューターによる厳密な論理検証のギャップを埋める試みがなされています。  
モデル
arxiv

項目 詳細
モデルバリアント DeepSeek-Prover-V2-671B (671Bパラメータ)
DeepSeek-Prover-V2-7B (7Bパラメータ、V1.5-Base-7Bを拡張)
ベースモデル DeepSeek-V3-Base-671B (671Bモデル用)
コンテキストウィンドウ 671B (SFT): 16,384 トークン
671B (RL生成): 最大 32,768 トークン
7B: 最大 32,768 トークン (4,096から拡張)
学習詳細 (SFT) 学習率: 5 \times 10^{-6} (定数)
学習データ: non-CoT (Expert Iteration) + CoT (合成コールドスタート)
学習詳細 (RL) アルゴリズム: GRPO
報酬: バイナリ (正誤)
サンプリング: 256問題/反復、32候補/問題
生成モード non-CoT: 高速・簡潔な証明生成 (Expert Iterationで訓練)
CoT: 高精度・中間ステップ明示 (RLで強化)
その他技術 サブゴール分解: DeepSeek-V3を利用
サブゴール解決: 主に7Bモデルを利用
Leanバージョン: Lean 4 (評価時 4.9.0)

ELYZA - ELYZA-Thinking-1.0-Qwen-32B

日本語における論理的思考能力を強化した大規模言語モデルであるELYZA-Thinking-1.0-Qwen-32Bを開発し、商用利用可能な形で公開しました。
このモデルは、アリババ社の「Qwen-32B」をベースに、日本語性能を強化した「推論モデル」です。最大の特徴は、単に回答するだけでなく、人間のように思考の連鎖Chain of Thoughtを内部で行い、その過程を経て結論を導き出す点にあります。比較的小規模な320億パラメータでありながら、OpenAI社の「o1-mini」に匹敵する推論能力、特に数学分野で高い性能を示します。
開発プロセスの特徴として、モンテカルロ木探索(MCTS)に着想を得たアルゴリズムを用いてAIが正解に至るための最適な「思考の道筋」を効率的に探索。これにより生成された約15万件の高品質な思考データ(思考過程付きのデータ)を用いて、モデルに模倣学習(SFT)、をさせ、複雑な推論能力を組み込みました。
さらに、この思考プロセスを省略し、結果だけを素早く出せるように学習させた「Shortcutモデル」も同時公開。こちらはGPT-4oに匹敵する性能を持つとのこと。両モデルともApache 2.0ライセンスで公開されています。
記事
モデル


Ai2 - OLMo2

OLMo2ファミリーの最新かつ最小モデルであるOLMo2 1Bをリリースしました。このモデルは、Gemma 3 1BやLlama 3.2 1Bといった同クラスの他の小型モデルよりも優れた性能を発揮します。OLMo2 1Bは、4Tトークンの高品質データで事前学習済みで、特に中期学習にはOLMo-mix-1124とDolmino-mix-1124を使用しています。OLMo 2 1Bの学習後処理には、Tülu3レシピを適用しました。これは、Tülu 3データセットのOLMo固有のバリアントを用いた教師ありファインチューニング、 olmo-2-0425-1b-preference-mixを用いたDPO学習 、そして最終的なRLVR学習です。これらにより、主要なベンチマークでパフォーマンスが向上しています。
ブログ


その他いろいろ

記事がすごく長くなってしまいそうなので雑に紹介します...


サービス群アップデート

ここからはサービスアップデートを雑に紹介していきます

  • Anthropic
    Integrationsにより、Jira、Zapier、Asanaなど、普段利用している様々な外部アプリやツールとClaudeを直接連携させることが可能になります。これによりClaudeは、プロジェクトの進捗や社内知識といった利用者の作業文脈を深く理解し、複数のアプリを横断したタスク実行も支援できるようになります。
    さらに、Research機能も大幅強化。Web検索やGoogle Workspaceに加え、今回連携したアプリ内の情報も含めて、最大45分かけて詳細な調査を実行。出典付きの包括的なレポートを作成し、複雑な情報収集・分析作業を強力にサポートします。
    ブログ

  • Google NotebookLM
    音声要約 Audio Overviewsが日本語対応
    ブログ

  • Gradio
    GradioアプリはLLMのモデルコンテキストプロトコル(MCP)サーバー上で起動できるようになりました。画像ジェネレーターや税金計算ツールなど、GradioアプリをLLMからツールとして呼び出すことができるようになります。
    ブログ

  • Devin DeepWiki
    DeepWikiは、世界中のあらゆるリポジトリについて、最新のドキュメントを参照できる機能を提供してます。GitHubリポジトリのURLを変更するだけで誰でも手軽にわかりやすいドキュメントを作成することができます。

    https://github.com/streamlit/streamlit
    ↓
    https://deepwiki.com/streamlit/streamlit
    

    リポジトリ ソースコードではありません

いかがだったでしょうか?今後ま様々な製品アップデートが予定されてると思うとワクワクが止まりませんね!お疲れ様でした

岩田組

Discussion