💡

[2025年8月8日] ついにGPT-5!!!……うーん? (週刊AI)

に公開

こんにちは、Kaiです。
GPT-5、ついに来ましたね。引っ張って引っ張っての公開だったため、ものすごく期待値が上がっていたように思います。

さて、その内容ですが……ううーん、全てが予想の範囲内というか、ノーサプライズだった印象です。もちろん性能は良くなり、ハルシネーションの低下も凄いなと思うのですが、予想を超える何かはなかったと思います。とはいえあくまで第一印象ですので、真価は皆が使い倒し、使いどころが見えてきたタイミングになるでしょう。特に超高度な思考を必要とするようなレベルのタスクに対しては、これから様々な形で評価が行われると思われます。

ただ、直近で言うとゲームチェンジになったのはgpt-ossの方かもしれません。色々な事情からDeepSeekは使えず、Llamaもちょっと性能がイマイチで、ローカルで動くオープンモデルの選択肢は妥協の産物になっていました。しかし、このgpt-ossは性能(o4-miniまたはo3-mini相当)も、評判も、サイズも、全てが「もうこれでいいのでは?」という感じです。ちょうどgpt-oss発表直後に、NTTがtsuzumi2という国産モデルを10月にリリースすると発表しましたが、「オープンモデルより性能の悪いクローズモデル……?」という微妙な反応になってしまいました。

やはりスタートアップや資金力のない企業の戦場は、AIモデルそのものではなく、AIモデルに何等かのドメイン知識やニッチ特化の特徴を追加したもので、シンプルにモデルを入れ替えれば付加価値が上がるような領域になっていくのでしょう。今後は、GPUサーバ費用はかかるものの、API料金を気にせず自由に改造して使えるo4-miniやo3-miniを全ての企業が手に入れたということになります。独自モデルと密結合したサービスを提供していた会社などは、かなり厳しい戦いになるのではないでしょうか。

さて一方、OpenAIのみならず今週は各社が一斉に発表を行いました。個別に紹介しきれないものもありますが、Opus4.1やClaude Codeのセキュリティレビュー機能などは、特にエンジニアにとってインパクトが大きそうです。そして圧倒的なリリーススピードとボリュームのGoogle。GoogleはGemini3.0を既に準備しているという噂もあり、全方位で存在感を増しています。

正直、もっとGPT-5にはAGIみを感じたかったので少し残念ではありましたが、それでもBig Weekであったことには違いありません。では一週間を振り返っていきましょう。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

OpenAI: GPT-5

今朝がたの発表でしたのであくまで速報ベースで。思ったほどAGIは感じられませんでした。
https://zenn.dev/schroneko/articles/introducing-gpt-5

OpenAI: Codex CLI Update

一番やる気のないコーディングエージェントと言われていたCodexにもGPT-5が。まだ試していませんが果たして変わるのでしょうか。
https://x.com/embirico/status/1953526045573059056

OpenAI: gpt-oss

冒頭に書いた通り、むしろこっちがゲームチェンジャーかも。全ての企業、人がo4-mini/o3-miniレベルのローカルLLMを手に。解説記事や使ってみた記事も出始めているのでご紹介。
https://github.com/openai/gpt-oss
https://www.itmedia.co.jp/aiplus/articles/2508/06/news061.html
https://nowokay.hatenablog.com/entry/2025/08/06/063849
https://note.com/npaka/n/nf63701c59563
https://note.com/npaka/n/nf39f327c3bde
https://www.itmedia.co.jp/aiplus/articles/2508/06/news066.html
https://tech-blog.abeja.asia/entry/gpt-oss-vllm

Anthropic: Claude Opus 4.1

Anthropicも早いですね!ただコンテクスト長をもう少し拡大して欲しい……。
https://www.anthropic.com/news/claude-opus-4-1

Anthropic: Claude Codeにセキュリティレビュー機能追加

これは欲しかったアプデ。Anthropicは社内でClaude Codeを使い倒していると言われているだけあって、エンジニアの欲しい機能を的確に追加している印象です。
https://www.anthropic.com/news/automate-security-reviews-with-claude-code

Google: Gemini CLI GitHub Actions

Claude Code Actions対抗ですね。本当に全方位で戦ってる。
https://cloud.google.com/blog/ja/topics/developers-practitioners/introducing-gemini-cli-github-actions

Google: Jules正式リリース

ベータ版だったJulesが正式版に。先週ご紹介した比較記事ではまぁまぁという感じでしたが、どうなるか。
https://blog.google/technology/google-labs/jules-now-available/

Google: Geminiに学習支援モード追加

これはChatGPTのStudyモード対抗。もうBig Techだと新サービスを作っても競合が週単位で登場するレベル。
https://www.itmedia.co.jp/aiplus/articles/2508/07/news058.html

Google: Genie 3

これは他社があまり手を出していない領域かも。ワールドそのものを逐次生成するプラットフォーム。Genie2ではまだ実用には堪えない感じでしたが、3だとかなりいい線いってるように見えます。インタラクションもできるとか。
https://x.com/GoogleDeepMind/status/1952732153852084485

Google: Storybooks

絵本を生成する機能が追加。上記のワールド生成といい、全てのコンテンツがオンデマンド生成されるようになるかもしれない。
https://x.com/GeminiApp/status/1952770641133781255

Google: マルチエージェントAI「Deep Think」

Reasoning時間を伸ばして並列化する感じですかね。しかしそこまで高度な思考を要するタスクを抱える人類がどれだけいるのか……。
https://www.itmedia.co.jp/aiplus/articles/2508/02/news026.html

Claude Code

Claude Codeがアホになる問題

これは結構話題になっていましたね。ダウングレードしないといけない、という話も出ていますが、統一された見解ではないようです。
https://blog.lai.so/cc-dumber/

Claude Codeを10倍賢くする無料ツール「Serena」の威力とトークン効率化術

この記事はめっちゃバズっており、Serenaに関する話題が一気に増えました。一言で言うと、ドキュメントを効率的に解析するMCPです。Claude Codeに直読みさせるのではなく、Serenaを介することで遥かに良くなるとのこと。
https://zenn.dev/sc30gsw/articles/ff81891959aaef

Serena MCPはClaude Codeを救うのか?

上記よりさらに踏み込んだ記事。特にトークン効率の部分で評価しています。
https://blog.lai.so/serena/

コーディングエージェントの能力を拡張する Serena を試してみた

こちらもやってみた系。同じくトークン効率が良い。
https://azukiazusa.dev/blog/serena-coding-agent/

Claude Code × Serena MCP:もうバージョンダウンしなくても良いのか...?

こちらもやってみた系。体感は良いらしい。
https://zenn.dev/studio/articles/431afa748fbed1

一方で、Serenaについてはこんな声もありました。
https://x.com/mizchi/status/1952549678492549205

社内で「え、そんなことできるの?」と話題になった Claude Code Custom slash commands の実践活用

スラッシュコマンドのカスタマイズは便利ですが、あんまりやり過ぎると破壊的変更が来たときにご破算になるんじゃないかな……。
https://zenn.dev/hacobu/articles/d4a194b95aacd5

その他AI系話題

NTT、純国産AI「tsuzumi 2」10月公開--ChatGPTの4oに匹敵する日本語能力

日本で、日本語特化モデルが生まれること自体は喜ばしいのですが……研究開発スピードが……。しかもクローズなのか……。
https://japan.cnet.com/article/35236405/

MCP認可の現在地と自律型エージェント対応に向けた課題

あまりMCPの認可周りを意識していなかったので勉強になりました。確かに自律型エージェントがMCPを使う際、マシン2マシンの認可をどうするかは課題ですね。
https://speakerdeck.com/yokawasa/mcp-authorization-today-and-challenges-to-support-autonomous-agents

コーディングのための LLM モデル Qwen3-Coder を試してみた

Alibaba発、コーディング特化のApache2.0ローカルモデル。良さそうですが、gpt-ossで吹っ飛んでしまったかも……?
https://azukiazusa.dev/blog/coding-agent-qwen3-corder/

インフラ屋さんはAIコーディングエージェントとどう生きるか ~ Kiroを使ったWebシステムなアーキテクチャ構築をしてハマった話 ~

インフラ屋さんの観点でIaC設計にエージェントを使った話はあまり見かけないので面白かったです。
https://tech.nri-net.com/entry/building_a_web_system_architecture_using_kiro

その他一般テック話題

無職が Claude Code を使って 3 週間かけて OSS ライブラリを開発したけど誰も使ってくれなかった話

Claude CodeのTIPSも面白いですが、むしろマーケティングすべきだったという話の方に興味を惹かれました。誰のために作るのか、作ったことをどうやって伝えるかの大事さが伝わってきます。
https://zenn.dev/ikuraikura/articles/2025-08-02-oss

We are hiring!

私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
https://zenn.dev/carenet/articles/4c0dadd193c6b6

積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
https://hrmos.co/pages/carenet5800/jobs/0000020

CareNet Engineers

Discussion