💡

[2025年3月14日] Manusの衝撃、OpenAIのAgentシフト (週刊AI)

Kai

2025/03/14に公開

News

Model Context Protocol

LLM

生成 AI

tech

こんにちは、Kaiです。

いやー今週も新しいサービスやリリースが相次ぎ、正直全ては追い切れていない感じがあります。やはり、年明けからAI開発が全ての側面で加速している感覚は間違っていないように思います。
昨今の話題としては、Manusがすごい瞬間風速を出していました。確かに衝撃的なデモ動画ではありましたし、「中の人いるのでは？」という感覚にもなります。ただ招待コード制なので、検証はまだまだこれからという感じでしょうか。正直、インフルエンサーに話題を作ってもらって、その間に精度を上げていくみたいなアプローチのようにも思われます。

（追記）こんなこと書いてたら一般開放されたようです。
そして、OpenAIが開発者向けのライブストリームで、Agentへのシフトを発表。OperatorというAgentはありますが、すべてのAgentの基盤を目指す、といったポジション取りでしょうか。
一方、一般のエンジニア界隈では「エージェント後の世界」の話題が多かったです。きのこカンファレンスもありましたしね。ものをつくるということの本質は何なのか、考えながら日々を過ごしていく必要がありそうです。
さて、今回からBig Tech AIサービスというカテゴリは廃止し、「AI新着モデル、サービス、アップデート」という形で紹介していきます。もはや、エージェントサービスなどはBig Techのみならず雨後の筍のように出てきていますし、基盤モデルも様々なOSSが出てきていますので、注目に値する、話題になったものはここでまとめて紹介します。
注意事項
直近収集したAIおよびWeb系の記事やポストが中心になります
私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
業務状況次第でお休みしたり、掲載タイミングが変わったりします

 AI新着モデル、サービス、アップデート
 OpenAI発表まとめOpenAIの開発者向けライブストリームで、いくつかの発表がありました。詳しくは以下の通りですが、「Agentが使うツール」「それらをラップしたAPI」「Agent向けSDK」の3つに集約されます。「エージェントはOpenAIを使って作れ、以上」という強いメッセージを感じます。

 まとめ記事https://zenn.dev/schroneko/articles/new-tools-for-building-agents

https://chatgpt-lab.com/n/n0977ac4d6281

 一次ソースhttps://x.com/OpenAIDevs/status/1899531225468969240

https://openai.com/index/new-tools-for-building-agents/

https://github.com/openai/openai-agents-python

 Gemma 3 Releaseいやぬるっと出すのやめていただきたい。もうちょっと大々的に告知してよ。

https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

さっそくぬこぬこ氏が試してくださってます。

https://zenn.dev/schroneko/articles/try-google-gemma-3

 Mistral OCRベンチ上は他OCRを上回り、特に複雑な構造をMarkdownなどに落とし込む性能が高い模様。1000ページあたり1ドルという驚異的な価格。

https://mistral.ai/news/mistral-ocr

 Manusめっちゃ話題になりました。デモ動画が割と衝撃的なんですよね。識者の反応を見ると、「OpenAIのOperatorをより洗練させ、実用的にした印象」という感じです。

https://x.com/ManusAI_HQ/status/1897294098945728752

使ってみている様子。

https://x.com/riku_ai_chatgpt/status/1898565669693829368

賛否まとめ。

https://note.com/d_1d2d/n/ne33fdbc2670d

 Llama 3.3 Swallow国産LLMが応用モデルとはいえ出続けるのは競争力として重要。がんばっていただきたい。

https://www.itmedia.co.jp/aiplus/articles/2503/10/news138.html

 日本語音声基盤モデル「いざなみ」「くしなだ」産総研から日本語ネイティブの音声モデル。「いざなぎ」「すさのお」じゃないのは何か意図があるんですかね。まぁ「すさのお」は暴言吐きそうですが……。

https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.html

 その他AI系話題
 AIに全てを委ねるコーディング「vibe coding」とは？ちょろっとバズワード化しましたね。しかし、Y Conbinatorの2025年冬期では、25％のスタートアップが「95％以上のコードをAIが書いた」としているというのは驚きです。限りなく「ゼロイチ」フェーズのハードルが下がってきていると感じます。もちろん、運用保守性や、大規模スケーリングは全く別の話ではありますが、スクラップ＆ビルドの必要リソースが極限まで下がっています。

https://note.com/d_1d2d/n/n535d0a79b069

 AIの正直さを体系的に測定するベンチマーク「MASK」Claudeが一番正直で嘘をつかない、というのは体感にも合いますね。ただなぜこの差が生まれるのかは興味深い。アライメントの企業機密なので、技術的に比較されることはなさそうですが……。

https://x.com/DanHendrycks/status/1896972178387841140

 生成AIのAIエージェントを大手3社（AWS、Azure、Google Cloud）で徹底比較してみた比較記事ありがたいです。当社はBedrockを使っていますが、Claudeへの信頼感が割と強いんですよね。確かに検索面が弱いというのはあるかもしれません……。

https://blog.g-gen.co.jp/entry/comparing-agent-architecture-across-cloud-vendors

 オレを救った Cline を紹介する先日紹介した「Clineに全部賭けろ」の記事を見て、賭けてみたくなった方の記録。セットアップから学びまで、生々しく公開してくださっていて臨場感があります。

https://speakerdeck.com/codehex/orewojiu-tuta-cline-woshao-jie-suru

 MCPで広がるLLM　〜Clineでの動作原理〜こちらも先日紹介した「Clineに全部賭ける前に」の中で取り扱っていたMCPに関する詳細記事。ClaudeとMCPの組み合わせはOpenAIとは違う路線で可能性がすごい。

https://zenn.dev/codeciao/articles/cline-mcp-server-overview

 Terraform操作をModel Context Protocol（MCP）経由で可能にするツールこれもMCPノウハウ記事。サンプルではなく、すぐに使えそうな実例として実装してくれているのでイメージしやすい。

https://syu-m-5151.hatenablog.com/entry/2025/03/09/020057

 “Claude DesktopのMCPサーバーを作ってみる”同じくMCPやってみた記事。もう少しシンプルな事例。

https://zenn.dev/hololab/articles/dc87358be14c59

 LLM Evaluation Frameworks: Head-to-Head ComparisonLLM評価フレームワークを比較評価する、という記事。割と知らないのも多い。

https://www.comet.com/site/blog/llm-evaluation-frameworks/

 論文スクリーニングの救世主！Elicitで論文レビューを劇的に効率化OpenAI Deep Researchと比較した優位性に言及していますが、「網羅性」についての実例や根拠がなかったので、ちょっと疑問が残るかもしれないですね……。

https://note.com/genkaijokyo/n/n9a42f7d9d608

 TypeScript 製の AI エージェントフレームワーク Mastraかなり機能は揃ってる印象です。ただ、この辺りはこれから戦国時代になりそうですので飛びつくのは早計かも。

https://azukiazusa.dev/blog/typescript-ai-agent-framework-mastra/

 Devin入門 〜月500ドルから始まるAIチームメイトとの開発生活〜オープンvsクローズ、簡単vs複雑の4象限で、使いどころを整理。Devinのために環境や情報を整備するのが大変というのは、ロボット掃除機のために家を掃除するのと同じかも。

https://speakerdeck.com/rkaga/introduction-devin-development-with-ai-teammates

 Devinにコードレビューをさせ、コード品質と開発速度を同時に高める話これもいい事例ですね。「実装はジュニアレベルだがレビューはシニアレベル」というのは、AIの強みを活かした使い方なのではないかと思います。

https://zenn.dev/globis/articles/28e47f8107c5b5

 RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）RAG限定ですが面白いですね。LLM-as-a-Judgeだとコストも時間もかかり、かつLLM自体のハルシネーションも排除できないのに対し、専用に訓練したModernBERTを用いて、「RAGデータ＋質問」と「回答」の関連性を評価する手法のようです。

https://zenn.dev/knowledgesense/articles/10e18ea3cbeb7a

 WEB開発系話題
 Introducing an enhanced local IDE experience for AWS Step FunctionsStep FunctionsがVSCodeで！当社もゴリゴリ使ってるのでうれしい。

https://aws.amazon.com/jp/blogs/compute/introducing-an-enhanced-local-ide-experience-for-aws-step-functions/

 ロードバランサーキャパシティユニット（LCU）予約を活用したトラフィック急増への備えALB、NLBのリソースを事前予約できるように！これはありがたい。かなり高速にリソース追従してくれますが、テレビ放送やチケット販売開始などの瞬間は対応しきれないケースを経験したので、いい機能だと思います。

https://aws.amazon.com/jp/blogs/news/using-load-balancer-capacity-unit-reservation-to-prepare-for-sharp-increases-in-traffic/

 Next.jsで発生したAPI ルートのメモリリークを3点ヒープダンプ法で解決した話寡聞にして3点ヒープダンプ法を知らなかったので大変勉強になりました。

https://zenn.dev/levtech/articles/d137287c085422

 その他一般テック話題
 AI-Agent時代のエンジニアの役割と野性「エージェント後」の時代にエンジニアはどう生き残るべきか。いい整理であり問題提起だと思います。

https://speakerdeck.com/jgeem/ai-agentshi-dai-noenzinianoyi-ge-toye-xing

 「読みやすいコード」を依存グラフで考える可視化アプローチとしてとてもいいですね。サイクロマティック複雑度よりコード評価という観点で有用そう。

https://zenn.dev/dinii/articles/readable-code-explained-in-dep-graph

CareNet EngineersPublication

株式会社ケアネットのエンジニアブログです。CareNetサービスの技術情報を中心に記事を投稿しております。各記事の内容は個人の意見であり、企業を代表するものではございません。

[2025年3月14日] Manusの衝撃、OpenAIのAgentシフト (週刊AI)

AI新着モデル、サービス、アップデート

OpenAI発表まとめ

まとめ記事

一次ソース

Gemma 3 Release

Mistral OCR

Manus

Llama 3.3 Swallow

日本語音声基盤モデル「いざなみ」「くしなだ」

その他AI系話題

AIに全てを委ねるコーディング「vibe coding」とは？

AIの正直さを体系的に測定するベンチマーク「MASK」

生成AIのAIエージェントを大手3社（AWS、Azure、Google Cloud）で徹底比較してみた

オレを救った Cline を紹介する

MCPで広がるLLM　〜Clineでの動作原理〜

Terraform操作をModel Context Protocol（MCP）経由で可能にするツール

“Claude DesktopのMCPサーバーを作ってみる”

LLM Evaluation Frameworks: Head-to-Head Comparison

論文スクリーニングの救世主！Elicitで論文レビューを劇的に効率化

TypeScript 製の AI エージェントフレームワーク Mastra

Devin入門〜月500ドルから始まるAIチームメイトとの開発生活〜

Devinにコードレビューをさせ、コード品質と開発速度を同時に高める話

RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）

WEB開発系話題

Introducing an enhanced local IDE experience for AWS Step Functions

ロードバランサーキャパシティユニット（LCU）予約を活用したトラフィック急増への備え

Next.jsで発生したAPI ルートのメモリリークを3点ヒープダンプ法で解決した話

その他一般テック話題

AI-Agent時代のエンジニアの役割と野性

「読みやすいコード」を依存グラフで考える

Discussion

AI新着モデル、サービス、アップデート

OpenAI発表まとめ

まとめ記事

一次ソース

Gemma 3 Release

Mistral OCR

Manus

Llama 3.3 Swallow

日本語音声基盤モデル「いざなみ」「くしなだ」

その他AI系話題

AIに全てを委ねるコーディング「vibe coding」とは？

AIの正直さを体系的に測定するベンチマーク「MASK」

生成AIのAIエージェントを大手3社（AWS、Azure、Google Cloud）で徹底比較してみた

オレを救った Cline を紹介する

MCPで広がるLLM 〜Clineでの動作原理〜

Terraform操作をModel Context Protocol（MCP）経由で可能にするツール

“Claude DesktopのMCPサーバーを作ってみる”

LLM Evaluation Frameworks: Head-to-Head Comparison

論文スクリーニングの救世主！Elicitで論文レビューを劇的に効率化

TypeScript 製の AI エージェントフレームワーク Mastra

Devin入門 〜月500ドルから始まるAIチームメイトとの開発生活〜

Devinにコードレビューをさせ、コード品質と開発速度を同時に高める話

RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）

WEB開発系話題

Introducing an enhanced local IDE experience for AWS Step Functions

ロードバランサーキャパシティユニット（LCU）予約を活用したトラフィック急増への備え

Next.jsで発生したAPI ルートのメモリリークを3点ヒープダンプ法で解決した話

その他一般テック話題

AI-Agent時代のエンジニアの役割と野性

「読みやすいコード」を依存グラフで考える

Discussion

MCPで広がるLLM　〜Clineでの動作原理〜

Devin入門〜月500ドルから始まるAIチームメイトとの開発生活〜