こんにちは、Kaiです。
ほんとに毎週Big Tech系のアップデートや発表がありますね……。
OpenAIから、予告されていたo3とo4-miniが発表されました。まだ完全に使いこなしてはいませんが、これまで難しかったタスクを与えてみると、従来のモデルとは異なる印象を受けています。言語化するなら「自律性」でしょうか。この使用感は、むしろManusやGensparkスーパーエージェントに近いものがあります。

これまで、AIの性能や限界や知識を考慮した上で、人間がプロンプトエンジニアリングを実施することが一般的な使い方でした。しかし、o3はそういう配慮をあまり必要としていないように思います。つまり、「タスクに必要なツールや知識を自分で判断して収集し、結果を出す」という機能を備えているように見えるのです。

後述のXでシェアされている使用感も、自分でタスクを与えても、これまでプロンプトに組み込む必要があった指示を「自律的に判断して」実行している印象があります。初めてOpenAIのチャットが、「エージェント」になったという感触です。

タイトルにも書いていますが、これはAGIの息吹を感じるというか、AGIのひな形なのだろうという思いが強くなっています。この先にあるものがきっとAGI。

さて、一方APIのみでの提供としてGPT-4.1も発表されています。完全にエージェントを意識したものであり、o3などが内部でツールとして使っているのではないかとも思います。恐らく今後すべてのモデルが、全人格的な能力を求められるチャットボットと、「AIが使うツール」としての特化したAPIに分かれて発展していくのではないかと思います。Amazonのブラウザ操作特化LLMもそうですね。

日を追うごとに人間の仕事は？と問われている気がする昨今ですが、今週のトピックスにいきましょう。

注意事項

直近収集したAIおよびWeb系の記事やポストが中心になります
私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

OpenAI: o3およびo4-mini発表

冒頭で書きたいことは書いてしまったので、情報のみ。MensaのIQテストではIQ136に達したそうです。
（公式）

（npakaさんまとめ）
https://note.com/npaka/n/na5947404358f
（使用感など）

OpenAI: GPT-4.1族発表

4.5は廃止予定ということで、4oに4.5を統合したものが4.1という位置づけですかね。それにしてもバージョン細かく刻めばいいってもんじゃない。
（公式）
https://openai.com/index/gpt-4-1/
（npakaさんまとめ）
https://note.com/npaka/n/n39461644c930
（関連：OpenAI謹製GPT-4.1向けプロンプトガイド）

Google: Gemini 2.5 Flash発表

思考モードのON/OFFが可能とのこと。OFFだと安いですが、それでも2.0Flashよりは値上げ。

Anthropic: Claude日本にReserach機能、Google Workspace連携などが追加

おお！と思ったものの、もはやGeminiかo3でいいんだよな……という感じになってしまいました。

Amazon、ブラウザ操作に特化したLLMを発表

今後OpenAI、Google、Ahthropic、xAI以外はこういうニッチモデルに主戦場を移していきそう。
https://github.com/aws/nova-act

その他AI系話題

バックオフィス向け toB SaaS バクラクにおけるレコメンド技術活用

B2Bでのレコメンド事例は割と貴重では。業務ドキュメントならではの特徴量や、少ないデータ数への工夫などのノウハウ紹介。

FastAPIで始めるMCPサーバー

これが一番簡単かも。サクッと実装できそうです。

Devinで模索する AIファースト開発〜ゼロベースから始めるDevOpsの進化〜

Devin事例共有。結局、AIが働きやすい環境を整えるためにDevOpsが必要になるという、ロボット掃除機文脈に近いお話。そして、より意思決定とアウトカムに集中する組織へのシフトが必要との結論。

MCPを超理解する

コード等を一切使わず、日本語のみの説明。技術で理解するのではなく、コンセプトで理解しようという趣旨です。

Playwright MCP を使ってAIにUXを評価してもらう

めっちゃいい！MSのE2Eテスト自動化ツールPlaywright + MCPで、ユーザのペルソナを設定してUIを評価してもらうという使い方。ユーザビリティテストが机上でできちゃう。

技術検証にCursor Agentはどの程度使えるのか。

この事例はいいですね。もちろん、AIコーディングは「公開された知見が多く」「ある程度枯れた技術」で最も効果が高いわけですが、それだけで業務が回るとは限らない。新しい技術の導入や選定に応用する際の経験談で、「有用」としています。
https://note.com/hatti8/n/ne6a46013b0bc

Vibe CodingとPrompt cachingの費用感

おカネの話はとても大事。「財布の大きさが AIコーディングの戦略を決める」は身も蓋もないけどこれからの世界の姿かもしれない……。

プロダクトマネジメント業務をCursorで爆速プロトタイピングしてみた🔥 ~PRD作成・PRDレビュー・プレスリリース作成・プレモーテム

Cursorをエンジニア以外（とはいえ周辺ですが）の方が活用するケースが増えてきているように思います。IDEというより、AI統合何でもツールになりつつある。

プログラミング用途の生成AI関連ツールの評価 2025/04/14

Clineに全部賭けろ、のmizchiさん記事。ふわっとした話ではなく、全部実際にゴリゴリ触ってみた結果なのでめちゃくちゃ解像度が高い。冒頭にある通り毎日変わるレベルなのは注意。

最近1行もコードを書いていない

コードはAIに任せ、コンテクストの整備と与え方を工夫するスタイル。「成果が出ているかというと微妙」という率直な感想ですが、今後さらなる進化を見据えると、今からスタイルを変える必要があるという温度感が伝わってきます。

SoftWihsper: 話者識別機能つきのWhisper

いくつかOSSで提案されてきましたが、最新のこれが一番いいのかな。

LLMの使い分けは大体Geminiでいい（2025年4月時点）

一昨日までは私もこうでした。今は割と大体o3でいいんじゃないかって気がしてます。リプレイスが速すぎる。

LLMを活用した商品検索タグ自動生成とRecall改善の取り組み(BigQuery × Gemini)

ここまで書いていいんですか？というレベルで試行錯誤と検証結果を記載してくださってます。

Discussion