💡

[2025年8月1日] GPT-5を待ちながら (週刊AI)

に公開2

こんにちは、Kaiです。
今週はあまり大きな話題はありませんでした。Claude Codeノウハウも一段落して、皆それぞれの使い方で最適化してきたようなイメージですね。ただ、最近のアップデートで急に能力が下がったという話も出ており、ダウングレードして使っている人もいるようです。

当社ではDevinも使い始めましたが、まだなかなか使いこなせていません。やはりノウハウの言語化、暗黙知のナレッジ化とセットで進めなければ、意図しない動作が増えてしまうと感じています。それと、やはり何か詰まったときの問題解決能力では、Claude Codeが頭一つ抜けているように思います。

さて、そしてGPT-5の噂がいよいよ本格化してきました。8月上旬に公開という情報は、様々なメディアが報じ始めましたので恐らくホンモノなのでしょう。既にアリーナではzenithという一線を画した性能の謎モデルが出ており、これがGPT-5なのではないかという憶測も飛び交っています。

また、サム・アルトマンをはじめとするAI企業トップたちが、ここ最近AGIを未来の目標ではなく、既定路線として語り始めている点にも注目が必要です。投資をさらに呼び込むためのハッタリではなく、OpenAIやAnthropic、Googleなどの内部では、既にほとんどの能力で人間を超えたモデルが運用されており、あとはマルチモーダル性能をどう横に広げていくかという課題のみが残っているのではないでしょうか。

それではGPT-5を楽しみにしつつ、今週のトピックスです。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

Google: Opal

Difyのようなワークフロー設計ツールです。米国限定のβテストなので、まだ日本から試すことはできません。Googleサービスとの統合は大きな強みですね。
https://developers.googleblog.com/en/introducing-opal/
(npakaさん翻訳)
https://note.com/npaka/n/n6baefe7dd1d5

Anthropic: Claude Code Rate Limit

5時間の制限に加えて、週次の制限を追加。限界まで使い倒した人が多数いた模様。
https://www.itmedia.co.jp/aiplus/articles/2507/29/news060.html

OpenAI: Study Mode

「学習用」のモードが追加されました。このモードにすると、答えをすぐに提示するのではなく、ソクラテス的問答を通じて理解を深められるとのこと。
https://www.itmedia.co.jp/aiplus/articles/2507/30/news053.html

Claude Code

Claude Codeで常にコンテクスト残量を表示する方法

いいですね、コンテクスト圧縮されなかったとしても、残量が減るとパフォーマンスが悪化するのは肌感として同じです。
https://zenn.dev/ml0_1337/articles/012da05fa06b9e

Claude Codeによる生産性向上の限界

いわゆるボトルネック理論で「レビュー」に課題があるという意見。当社でも同様のことを感じています。「テストなどを充実させ、なるべくレビューしなくて済むようにする」「レビューしやすいアウトプットに誘導する」など、いくつかのノウハウを紹介。
https://note.com/suthio/n/n45a179642d7d

Claude Code でカスタムサブエージェントを作成する

以前紹介した記事でも扱っていましたが、サブエージェントの工夫はまだそれほど広まっていないように思います。次の生産性向上はここかな。
https://azukiazusa.dev/blog/create-custom-sub-agent-in-claude-code/

その他AI系話題

生成AI連携型セキュリティアラート管理システム: Warren

先日スライドでもご紹介した、生成AIを活用したセキュリティ監視ツールの詳細記事です。これは良さそう。
https://zenn.dev/mizutani/articles/secmon-warren

Mastraを参考にドキュメントMCPサーバーを作ってみた

今後、およそ「マニュアル」とか「技術文書」には全てMCPサーバがセットで公開される流れになるんじゃないかな、という気がします。
https://zenn.dev/himara2/articles/c2835dd77bd743

AI エージェント開発の技術的負債を予防する : Amazon Bedrock AgentCore をゼロからまるっと体験

エージェント自体を開発しなければならないケースは決して多くないと思いますが、Amazon Bedrock AgentCoreを使っためちゃくちゃ詳しい例です。
https://qiita.com/icoxfog417/items/f21bb92352277d2ddc66

LLMは麻雀を知らなすぎるから俺が教育してやる

タイトルでもう面白い。でも中身は真面目です。麻雀の点数計算のように、複雑なルールを持つ問題をどうLLMに扱わせるか、という試行錯誤の記録です。時間はかかるがマルチエージェントがよいとのこと。
https://speakerdeck.com/po3rin/llmhama-que-wozhi-ranasukirukaraan-kajiao-yu-siteyaru

完全自律型AIエージェントのベンチマーク(2): Codex、Jules、OpenHandsを加えて

Codex「問題児、やる気なし」は笑ってしまいました。まぁそうですよね。Devinが一つ抜けて優秀な成績を収めていますが、ちょっと肌感と乖離がありますね。扱う問題次第なのかな。
https://blog.lai.so/agent-benchmark-202507/

Kiroの登場と最近のAIコーディングツールについて思うこと

おおむね同感です。モデルの進化、ツールの進化に応じて、スタイルを変えていかなければならないと感じます。
https://zenn.dev/oikon/articles/kiro-and-aitools

日本語ベースの医療特化型LLM(Apache2.0)

これはいい!早速量子化されたものも有志が公開したようです。ローカルで試してみたいところ。
https://huggingface.co/SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct

WEB開発系話題

「育てる」サーバーレス 〜チーム開発研修で学んだ、小さく始めて大きく拡張するAWS設計〜

サーバレスの場合、インフラもアジャイル的に拡張していける、というお話。あまり意識しませんでしたが、新規サービスを作る際などは確かに大きなメリットですね。
https://speakerdeck.com/yu_kod/yu-teru-sabaresu-timukai-fa-yan-xiu-dexue-nda-xiao-sakushi-meteda-kikukuo-zhang-suruawsshe-ji

その他一般テック話題

削減工数も丸裸──Cygames、LLM活用の最新状況を公開 バグ報告・SNS分析ツールを内製

ポジショントークもあるでしょうけれど、クリエイターを代替するものではなく助けるもの、という位置づけで統一しているのは交換が持てます。
https://www.itmedia.co.jp/aiplus/articles/2507/29/news033.html

開発組織のAI活用を推進した3ヶ月間を振り返る

旗振り役として実際に何をしたか、どういう反応があったかの生々しい記録。チェンジメーカーであることってかなり大変なのですよね。地道な活動が大事。
https://zenn.dev/knowledgework/articles/ai-dev-enablement

We are hiring!

私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
https://zenn.dev/carenet/articles/4c0dadd193c6b6

積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
https://hrmos.co/pages/carenet5800/jobs/0000020

CareNet Engineers

Discussion