[2025年3月14日] Manusの衝撃、OpenAIのAgentシフト (週刊AI)
こんにちは、Kaiです。
いやー今週も新しいサービスやリリースが相次ぎ、正直全ては追い切れていない感じがあります。やはり、年明けからAI開発が全ての側面で加速している感覚は間違っていないように思います。
昨今の話題としては、Manusがすごい瞬間風速を出していました。確かに衝撃的なデモ動画ではありましたし、「中の人いるのでは?」という感覚にもなります。ただ招待コード制なので、検証はまだまだこれからという感じでしょうか。正直、インフルエンサーに話題を作ってもらって、その間に精度を上げていくみたいなアプローチのようにも思われます。
(追記)こんなこと書いてたら一般開放されたようです。
そして、OpenAIが開発者向けのライブストリームで、Agentへのシフトを発表。OperatorというAgentはありますが、すべてのAgentの基盤を目指す、といったポジション取りでしょうか。
一方、一般のエンジニア界隈では「エージェント後の世界」の話題が多かったです。きのこカンファレンスもありましたしね。ものをつくるということの本質は何なのか、考えながら日々を過ごしていく必要がありそうです。
さて、今回からBig Tech AIサービスというカテゴリは廃止し、「AI新着モデル、サービス、アップデート」という形で紹介していきます。もはや、エージェントサービスなどはBig Techのみならず雨後の筍のように出てきていますし、基盤モデルも様々なOSSが出てきていますので、注目に値する、話題になったものはここでまとめて紹介します。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
OpenAI発表まとめ
OpenAIの開発者向けライブストリームで、いくつかの発表がありました。詳しくは以下の通りですが、「Agentが使うツール」「それらをラップしたAPI」「Agent向けSDK」の3つに集約されます。「エージェントはOpenAIを使って作れ、以上」という強いメッセージを感じます。
まとめ記事
一次ソース
Gemma 3 Release
いやぬるっと出すのやめていただきたい。もうちょっと大々的に告知してよ。
さっそくぬこぬこ氏が試してくださってます。Mistral OCR
ベンチ上は他OCRを上回り、特に複雑な構造をMarkdownなどに落とし込む性能が高い模様。1000ページあたり1ドルという驚異的な価格。
Manus
めっちゃ話題になりました。デモ動画が割と衝撃的なんですよね。識者の反応を見ると、「OpenAIのOperatorをより洗練させ、実用的にした印象」という感じです。
使ってみている様子。 賛否まとめ。Llama 3.3 Swallow
国産LLMが応用モデルとはいえ出続けるのは競争力として重要。がんばっていただきたい。
日本語音声基盤モデル「いざなみ」「くしなだ」
産総研から日本語ネイティブの音声モデル。「いざなぎ」「すさのお」じゃないのは何か意図があるんですかね。まぁ「すさのお」は暴言吐きそうですが……。
その他AI系話題
AIに全てを委ねるコーディング「vibe coding」とは?
ちょろっとバズワード化しましたね。しかし、Y Conbinatorの2025年冬期では、25%のスタートアップが「95%以上のコードをAIが書いた」としているというのは驚きです。限りなく「ゼロイチ」フェーズのハードルが下がってきていると感じます。もちろん、運用保守性や、大規模スケーリングは全く別の話ではありますが、スクラップ&ビルドの必要リソースが極限まで下がっています。
AIの正直さを体系的に測定するベンチマーク「MASK」
Claudeが一番正直で嘘をつかない、というのは体感にも合いますね。ただなぜこの差が生まれるのかは興味深い。アライメントの企業機密なので、技術的に比較されることはなさそうですが……。
生成AIのAIエージェントを大手3社(AWS、Azure、Google Cloud)で徹底比較してみた
比較記事ありがたいです。当社はBedrockを使っていますが、Claudeへの信頼感が割と強いんですよね。確かに検索面が弱いというのはあるかもしれません……。
オレを救った Cline を紹介する
先日紹介した「Clineに全部賭けろ」の記事を見て、賭けてみたくなった方の記録。セットアップから学びまで、生々しく公開してくださっていて臨場感があります。
MCPで広がるLLM 〜Clineでの動作原理〜
こちらも先日紹介した「Clineに全部賭ける前に」の中で取り扱っていたMCPに関する詳細記事。ClaudeとMCPの組み合わせはOpenAIとは違う路線で可能性がすごい。
Terraform操作をModel Context Protocol(MCP)経由で可能にするツール
これもMCPノウハウ記事。サンプルではなく、すぐに使えそうな実例として実装してくれているのでイメージしやすい。
“Claude DesktopのMCPサーバーを作ってみる”
同じくMCPやってみた記事。もう少しシンプルな事例。
LLM Evaluation Frameworks: Head-to-Head Comparison
LLM評価フレームワークを比較評価する、という記事。割と知らないのも多い。
論文スクリーニングの救世主!Elicitで論文レビューを劇的に効率化
OpenAI Deep Researchと比較した優位性に言及していますが、「網羅性」についての実例や根拠がなかったので、ちょっと疑問が残るかもしれないですね……。
TypeScript 製の AI エージェントフレームワーク Mastra
かなり機能は揃ってる印象です。ただ、この辺りはこれから戦国時代になりそうですので飛びつくのは早計かも。
Devin入門 〜月500ドルから始まるAIチームメイトとの開発生活〜
オープンvsクローズ、簡単vs複雑の4象限で、使いどころを整理。Devinのために環境や情報を整備するのが大変というのは、ロボット掃除機のために家を掃除するのと同じかも。
Devinにコードレビューをさせ、コード品質と開発速度を同時に高める話
これもいい事例ですね。「実装はジュニアレベルだがレビューはシニアレベル」というのは、AIの強みを活かした使い方なのではないかと思います。
RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)
RAG限定ですが面白いですね。LLM-as-a-Judgeだとコストも時間もかかり、かつLLM自体のハルシネーションも排除できないのに対し、専用に訓練したModernBERTを用いて、「RAGデータ+質問」と「回答」の関連性を評価する手法のようです。
WEB開発系話題
Introducing an enhanced local IDE experience for AWS Step Functions
Step FunctionsがVSCodeで!当社もゴリゴリ使ってるのでうれしい。
ロードバランサーキャパシティユニット(LCU)予約を活用したトラフィック急増への備え
ALB、NLBのリソースを事前予約できるように!これはありがたい。かなり高速にリソース追従してくれますが、テレビ放送やチケット販売開始などの瞬間は対応しきれないケースを経験したので、いい機能だと思います。
Next.jsで発生したAPI ルートのメモリリークを3点ヒープダンプ法で解決した話
寡聞にして3点ヒープダンプ法を知らなかったので大変勉強になりました。
その他一般テック話題
AI-Agent時代のエンジニアの役割と野性
「エージェント後」の時代にエンジニアはどう生き残るべきか。いい整理であり問題提起だと思います。
「読みやすいコード」を依存グラフで考える
可視化アプローチとしてとてもいいですね。サイクロマティック複雑度よりコード評価という観点で有用そう。
Discussion