[2025年8月1日] GPT-5を待ちながら (週刊AI)
こんにちは、Kaiです。
今週はあまり大きな話題はありませんでした。Claude Codeノウハウも一段落して、皆それぞれの使い方で最適化してきたようなイメージですね。ただ、最近のアップデートで急に能力が下がったという話も出ており、ダウングレードして使っている人もいるようです。
当社ではDevinも使い始めましたが、まだなかなか使いこなせていません。やはりノウハウの言語化、暗黙知のナレッジ化とセットで進めなければ、意図しない動作が増えてしまうと感じています。それと、やはり何か詰まったときの問題解決能力では、Claude Codeが頭一つ抜けているように思います。
さて、そしてGPT-5の噂がいよいよ本格化してきました。8月上旬に公開という情報は、様々なメディアが報じ始めましたので恐らくホンモノなのでしょう。既にアリーナではzenithという一線を画した性能の謎モデルが出ており、これがGPT-5なのではないかという憶測も飛び交っています。
また、サム・アルトマンをはじめとするAI企業トップたちが、ここ最近AGIを未来の目標ではなく、既定路線として語り始めている点にも注目が必要です。投資をさらに呼び込むためのハッタリではなく、OpenAIやAnthropic、Googleなどの内部では、既にほとんどの能力で人間を超えたモデルが運用されており、あとはマルチモーダル性能をどう横に広げていくかという課題のみが残っているのではないでしょうか。
それではGPT-5を楽しみにしつつ、今週のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
Google: Opal
Difyのようなワークフロー設計ツールです。米国限定のβテストなので、まだ日本から試すことはできません。Googleサービスとの統合は大きな強みですね。
(npakaさん翻訳)Anthropic: Claude Code Rate Limit
5時間の制限に加えて、週次の制限を追加。限界まで使い倒した人が多数いた模様。
OpenAI: Study Mode
「学習用」のモードが追加されました。このモードにすると、答えをすぐに提示するのではなく、ソクラテス的問答を通じて理解を深められるとのこと。
Claude Code
Claude Codeで常にコンテクスト残量を表示する方法
いいですね、コンテクスト圧縮されなかったとしても、残量が減るとパフォーマンスが悪化するのは肌感として同じです。
Claude Codeによる生産性向上の限界
いわゆるボトルネック理論で「レビュー」に課題があるという意見。当社でも同様のことを感じています。「テストなどを充実させ、なるべくレビューしなくて済むようにする」「レビューしやすいアウトプットに誘導する」など、いくつかのノウハウを紹介。
Claude Code でカスタムサブエージェントを作成する
以前紹介した記事でも扱っていましたが、サブエージェントの工夫はまだそれほど広まっていないように思います。次の生産性向上はここかな。
その他AI系話題
生成AI連携型セキュリティアラート管理システム: Warren
先日スライドでもご紹介した、生成AIを活用したセキュリティ監視ツールの詳細記事です。これは良さそう。
Mastraを参考にドキュメントMCPサーバーを作ってみた
今後、およそ「マニュアル」とか「技術文書」には全てMCPサーバがセットで公開される流れになるんじゃないかな、という気がします。
AI エージェント開発の技術的負債を予防する : Amazon Bedrock AgentCore をゼロからまるっと体験
エージェント自体を開発しなければならないケースは決して多くないと思いますが、Amazon Bedrock AgentCoreを使っためちゃくちゃ詳しい例です。
LLMは麻雀を知らなすぎるから俺が教育してやる
タイトルでもう面白い。でも中身は真面目です。麻雀の点数計算のように、複雑なルールを持つ問題をどうLLMに扱わせるか、という試行錯誤の記録です。時間はかかるがマルチエージェントがよいとのこと。
完全自律型AIエージェントのベンチマーク(2): Codex、Jules、OpenHandsを加えて
Codex「問題児、やる気なし」は笑ってしまいました。まぁそうですよね。Devinが一つ抜けて優秀な成績を収めていますが、ちょっと肌感と乖離がありますね。扱う問題次第なのかな。
Kiroの登場と最近のAIコーディングツールについて思うこと
おおむね同感です。モデルの進化、ツールの進化に応じて、スタイルを変えていかなければならないと感じます。
日本語ベースの医療特化型LLM(Apache2.0)
これはいい!早速量子化されたものも有志が公開したようです。ローカルで試してみたいところ。
WEB開発系話題
「育てる」サーバーレス 〜チーム開発研修で学んだ、小さく始めて大きく拡張するAWS設計〜
サーバレスの場合、インフラもアジャイル的に拡張していける、というお話。あまり意識しませんでしたが、新規サービスを作る際などは確かに大きなメリットですね。
その他一般テック話題
削減工数も丸裸──Cygames、LLM活用の最新状況を公開 バグ報告・SNS分析ツールを内製
ポジショントークもあるでしょうけれど、クリエイターを代替するものではなく助けるもの、という位置づけで統一しているのは交換が持てます。
開発組織のAI活用を推進した3ヶ月間を振り返る
旗振り役として実際に何をしたか、どういう反応があったかの生々しい記録。チェンジメーカーであることってかなり大変なのですよね。地道な活動が大事。
We are hiring!
私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
Discussion
毎週楽しみに読ませていただいてます
ありがとうございます!励みになります。