💡

[2025年4月18日] o3はもうほぼAGIでいいんじゃないですかね (週刊AI)

に公開

こんにちは、Kaiです。
ほんとに毎週Big Tech系のアップデートや発表がありますね……。
OpenAIから、予告されていたo3とo4-miniが発表されました。まだ完全に使いこなしてはいませんが、これまで難しかったタスクを与えてみると、従来のモデルとは異なる印象を受けています。言語化するなら「自律性」でしょうか。この使用感は、むしろManusやGensparkスーパーエージェントに近いものがあります。

これまで、AIの性能や限界や知識を考慮した上で、人間がプロンプトエンジニアリングを実施することが一般的な使い方でした。しかし、o3はそういう配慮をあまり必要としていないように思います。つまり、「タスクに必要なツールや知識を自分で判断して収集し、結果を出す」という機能を備えているように見えるのです。

後述のXでシェアされている使用感も、自分でタスクを与えても、これまでプロンプトに組み込む必要があった指示を「自律的に判断して」実行している印象があります。初めてOpenAIのチャットが、「エージェント」になったという感触です。

タイトルにも書いていますが、これはAGIの息吹を感じるというか、AGIのひな形なのだろうという思いが強くなっています。この先にあるものがきっとAGI。

さて、一方APIのみでの提供としてGPT-4.1も発表されています。完全にエージェントを意識したものであり、o3などが内部でツールとして使っているのではないかとも思います。恐らく今後すべてのモデルが、全人格的な能力を求められるチャットボットと、「AIが使うツール」としての特化したAPIに分かれて発展していくのではないかと思います。Amazonのブラウザ操作特化LLMもそうですね。

日を追うごとに人間の仕事は?と問われている気がする昨今ですが、今週のトピックスにいきましょう。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

OpenAI: o3およびo4-mini発表

冒頭で書きたいことは書いてしまったので、情報のみ。MensaのIQテストではIQ136に達したそうです。
(公式)
https://openai.com/index/introducing-o3-and-o4-mini/
(npakaさんまとめ)
https://note.com/npaka/n/na5947404358f
(使用感など)
https://x.com/paji_a/status/1912727764844917243
https://x.com/kawai_design/status/1912658913746661457
https://x.com/tommy_love123/status/1912637713406366161
https://x.com/kenfjt/status/1912673214448431139
https://x.com/Shimayus/status/1912762979424301498
https://x.com/_daichikonno/status/1912712525592101364
https://x.com/GianMattya/status/1912838692344840328

OpenAI: GPT-4.1族発表

4.5は廃止予定ということで、4oに4.5を統合したものが4.1という位置づけですかね。それにしてもバージョン細かく刻めばいいってもんじゃない。
(公式)
https://openai.com/index/gpt-4-1/
(npakaさんまとめ)
https://note.com/npaka/n/n39461644c930
(関連:OpenAI謹製GPT-4.1向けプロンプトガイド)
https://cookbook.openai.com/examples/gpt4-1_prompting_guide

Google: Gemini 2.5 Flash発表

思考モードのON/OFFが可能とのこと。OFFだと安いですが、それでも2.0Flashよりは値上げ。
https://x.com/googleaidevs/status/1912966952626397597

Anthropic: Claude日本にReserach機能、Google Workspace連携などが追加

おお!と思ったものの、もはやGeminiかo3でいいんだよな……という感じになってしまいました。
https://x.com/schroneko/status/1912208822678298714

Amazon、ブラウザ操作に特化したLLMを発表

今後OpenAI、Google、Ahthropic、xAI以外はこういうニッチモデルに主戦場を移していきそう。
https://github.com/aws/nova-act

その他AI系話題

バックオフィス向け toB SaaS バクラクにおけるレコメンド技術活用

B2Bでのレコメンド事例は割と貴重では。業務ドキュメントならではの特徴量や、少ないデータ数への工夫などのノウハウ紹介。
https://speakerdeck.com/yuya4/recommender-systems-in-layerx-bakuraku

FastAPIで始めるMCPサーバー

これが一番簡単かも。サクッと実装できそうです。
https://zenn.dev/kmiura55/articles/fastapi-mcp-starting

Devinで模索する AIファースト開発〜ゼロベースから始めるDevOpsの進化〜

Devin事例共有。結局、AIが働きやすい環境を整えるためにDevOpsが必要になるという、ロボット掃除機文脈に近いお話。そして、より意思決定とアウトカムに集中する組織へのシフトが必要との結論。
https://speakerdeck.com/potix2/ai_first_development_with_devin

MCPを超理解する

コード等を一切使わず、日本語のみの説明。技術で理解するのではなく、コンセプトで理解しようという趣旨です。
https://qiita.com/ak-sasaki0919/items/b216a06b0ef33536fc3b

Playwright MCP を使ってAIにUXを評価してもらう

めっちゃいい!MSのE2Eテスト自動化ツールPlaywright + MCPで、ユーザのペルソナを設定してUIを評価してもらうという使い方。ユーザビリティテストが机上でできちゃう。
https://qiita.com/Takenoko4594/items/cc36ca3043f11ca175c1

技術検証にCursor Agentはどの程度使えるのか。

この事例はいいですね。もちろん、AIコーディングは「公開された知見が多く」「ある程度枯れた技術」で最も効果が高いわけですが、それだけで業務が回るとは限らない。新しい技術の導入や選定に応用する際の経験談で、「有用」としています。
https://note.com/hatti8/n/ne6a46013b0bc

Vibe CodingとPrompt cachingの費用感

おカネの話はとても大事。「財布の大きさが AIコーディングの戦略を決める」は身も蓋もないけどこれからの世界の姿かもしれない……。
https://zenn.dev/watany/articles/ee616e6c3d1cd5

プロダクトマネジメント業務をCursorで爆速プロトタイピングしてみた🔥 ~PRD作成・PRDレビュー・プレスリリース作成・プレモーテム

Cursorをエンジニア以外(とはいえ周辺ですが)の方が活用するケースが増えてきているように思います。IDEというより、AI統合何でもツールになりつつある。
https://note.com/taku_yeah/n/n8695ff505ce0

プログラミング用途の生成AI関連ツールの評価 2025/04/14

Clineに全部賭けろ、のmizchiさん記事。ふわっとした話ではなく、全部実際にゴリゴリ触ってみた結果なのでめちゃくちゃ解像度が高い。冒頭にある通り毎日変わるレベルなのは注意。
https://zenn.dev/mizchi/articles/ai-model-current-snapshot-2025-0414

最近1行もコードを書いていない

コードはAIに任せ、コンテクストの整備と与え方を工夫するスタイル。「成果が出ているかというと微妙」という率直な感想ですが、今後さらなる進化を見据えると、今からスタイルを変える必要があるという温度感が伝わってきます。
https://zenn.dev/notahotel/articles/e70325e770ffa6

SoftWihsper: 話者識別機能つきのWhisper

いくつかOSSで提案されてきましたが、最新のこれが一番いいのかな。
https://github.com/NullMagic2/SoftWhisper

LLMの使い分けは大体Geminiでいい(2025年4月時点)

一昨日までは私もこうでした。今は割と大体o3でいいんじゃないかって気がしてます。リプレイスが速すぎる。
https://note.com/erukiti/n/n2318dd359061

LLMを活用した商品検索タグ自動生成とRecall改善の取り組み(BigQuery × Gemini)

ここまで書いていいんですか?というレベルで試行錯誤と検証結果を記載してくださってます。
https://product.10x.co.jp/entry/2025/04/14/080000

CareNet Engineers

Discussion