[2025年1月10日] LLMのコモディティ化とエージェントの時代 (週刊AI)
新年おめでとうございます、Kaiです。
昨年はたくさんの方にまとめ記事をご覧頂き、ありがとうございました。
今年も引き続き、「とりあえずここを週次で見ておけばAI界隈の動きがざっとわかる」というレベル感を目指して話題を取り上げていきたいと思います。
また、メジャーな話題についてはなぜ話題になっているか少し解説を加えるような試みもしたいと思っておりますので、引き続きよろしくお願いいたします。
年末年始はさすがに大きな発表があまりなく、展望・予測系の投稿や、まとめの投稿などが目立っていました。そんな中でもDeepSeekは大きな話題になっていましたので、注目話題として取り上げたいと思います。
また、NVIDIAが新年に開催されたイベントで様々な発表を行いました。直接AIではありませんが、間接的に大きい影響があるため、こちらも注目話題に取り上げます。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
今週の注目話題
DeepSeek V3
中国発のオープンモデル、DeepSeekのV3が公開されました。オープンモデルでありながら、GPT-4oレベルの能力を持ち、APIの価格は(期間限定ですが)数十分の一となっています。しかしながら、中国企業であること自体がリスク、という指摘もなされています。単にチャットモデルとして使うだけならば問題ないですが、システムに組み込んだり、コード生成を全面的に任せたりするのは、今後地政学上のリスクとセットで考えると安易に踏み込むべきではないようにも思われます。
また、返す内容がものによっては偏っているという指摘もあり、使いどころには注意が必要かもしれません。この超低価格も、ひょっとすると政策的な意向な可能性もあります。
ただ、DeepSeekが極めて速く高レベルモデルの性能に追いついたのは事実で、これは「高レベルモデルの入出力を新モデルの学習に利用できるから」ではないかとも言われています。だとすると、LLMはAGI/ASI競争を除き、既にコモディティの世界に入りつつあるのかもしれません。
(まとめ記事)
(Xの反応など)NVIDIA発表
米国ラスベガスで世界最大級の展示会CES2025が開催され、NVIDIAも様々な発表を行いました。その中でも、AIに関連する部分をご紹介します。
GeForce RTX 50シリーズ
これまでもご家庭などでは機械学習、推論のGPUとして40シリーズが使われてきましたが、50シリーズが発表。最上位モデル5090は32GBのVRAMを持っており、約40万円の予想。ただ、32GBだと大きいモデルは乗りませんし、やはりゲーム用と割り切った方が良さそう。
個人向け小型AIスパコン「Project DIGITS」
AI用途ではこちらが本命ですね。なんと128GBのVRAMを搭載し、2台連結すれば405BパラメータのLLMを実行可能(推論のみと思います)。お値段も50万円程度と、GPUサーバを運用するよりよほど安価です。個人でAIやる人はこちらの購入が第一選択肢になるのではないかと思います。
Big Tech AIサービス
OpenAI: サム・アルトマンの年頭ポエム
たまに公開される同氏のポエム。「我々は、AGIを構築する方法を理解したと確信している」と明確に述べているのが注目点でしょうか。
Microsoft: Phi-4
MS謹製の小型オープンモデル、Phi-4が公開されました。ライセンスは(批判を受けて)これまでと異なるMITに切り替わりましたので、基本的には何でも使えると思ってよいです。
Google: 発表まとめ
昨年末にGoogleが発表した色々な弾のまとめ。バラバラっと来たので全部追えていない方はこちらをご覧ください。
その他AI系話題
因果推論とAI
社会実装が進むにつれて、ブラックボックスではなく説明可能なAIが求められるのは自然な流れです。ざっくり因果推論とAIの概要をつかむのに良いと思います。
CursorとDesign Docで実現する漸進的なアーキテクチャ改善
Cursorはどんどん広まっていますが、まだベストプラクティスは個人レベルにとどまっているように思います。こうして例を共有頂けるのは参考になります。
optunaの理論
タイトル通りかなり理論寄りの内容です。ハイパラチューニングのときに意識せずに使うoptuna、その背景を詳しく解説。
さよならClaude、こんにちはGemini 〜Claude愛用者がGeminiに乗り換えた理由〜
Claudeは私も愛用していたのですが、何というか「いいやつ」感がすごいんですよね。ただ、最近は私もGeminiではありませんがめっきりo1しか使わなくなってしまいました。次の記事で、Geminiとo1の比較もご紹介します。
ChatGPT o1とGemini 2.0の性能を比較してみた
結論から言うと、o1(Pro modeではない)の圧勝、というのが筆者の見解です。実際に投入した質問と回答も提示されているので、ぜひご覧ください。
browser-use やばいです
AIエージェントがブラウザを使えるようにするライブラリ。精度が非常に高いとのこと。ただ、消費トークンが多いので使いどころを考えた方がよさそう。
LLMがオワコン化した2024年
筆者のいう「オワコン」は、コモディティ化してコピーコストが非常に低くなる状態、を意味しているようです。それを踏まえた上で、どのようにラップして既存のサービス、プロダクトと統合してフロントを取っていくか、それとも単に安価で呼び出される側に回るか、という整理をしています。
AI Agent Era
昨年後半から、ワークフロー→エージェントという流れが強まってきました。ワークフローは予め人が設計したフローに基づいてデータを受け渡しつつLLMが処理していくのに対し、エージェントはもっと自律的に、タスクを理解してエージェント自体が複数のツールを自分で使い分ける、というようなイメージです。2025年はこの流れは加速するでしょう。
NvidiaのCEOが、「会社のIT部門は人事部門になる」という趣旨の発言をしています。これは、IT部門の業務が「何のAIエージェントを選定・採用し組み合わせるか」という領域にシフトするという予想を意味しています。
WEB開発系話題
3年でバックエンドエンジニアが5倍に増えても破綻しなかったアーキテクチャ そして、これから
アーキテクチャの具体例というよりは、組織や設計に対する考え方、といった感じです。
その他一般テック話題
もうすぐ消滅するという人間の翻訳について
テックか……?という疑問はありますが、AI界隈、エンジニア界隈で大変議論を巻き起こしていた記事なのでご紹介。舞台芸術の翻訳をされている方が、思いを綴った文章です。圧倒的コストメリットとタイムパフォーマンスによって不完全であれ人間がAIに代替される。その先にあるのはもはや人間は(若者は)何かに新しく取り組むよことをしなくなる世界ではないか、というようなお話です。
Discussion