[2025年9月5日] Codexしか勝たん気がしてきた(手のひら返し) (週刊AI)
こんにちは、Kaiです。
Codex、いい感じです。CLIとしても、VSCode拡張としても使えますし、指示追従性や大きい塊のタスクを渡したときの精度が高い気がします(定量評価していないので肌感ですが)。登場した当初は全然ダメと言われていたことを考えると、凄まじい進化速度です。
しかし、やはり色々使っていて思うのは、前にも書きましたが個別のアプリケーションやツールのノウハウに習熟するのではなく、もっと本質的なことにフォーカスすべきだという点ですね。例えば要求定義や要件定義、よい設計といった、モノを複数人で作るとはどういうことなのか、といった知見が、より重要性を増していくと感じます。
一方で、ツール自体も変質していくような気がします。VSCodeなどは、最初からAIと親和性が高かったので拡張という形でAIを取り込みましたが、他のクリエーションツールはAIネイティブなものが登場しリプレイスされていくのではないかと思います。
例えば、私は趣味でBlender、Unity、クリスタなどを使っていますが、これらのツールがAIフレンドリーかというとちょっと首をかしげてしまいます。確かにMCPでの接続やCLIとの統合が試みられているものの、VSCodeのような体験は得られません。
さらにこの感覚を広げていくと、オフィスツールやブラウザ、コミュニケーションツールなど、ありとあらゆるものがAIと統合された新しいUI/UXを持つ製品に取って代わられるのではないかとすら思います。既にオフィスツールやブラウザでは、既存PFの競争と質的変化が始まっておりますし、新規参入勢力も出ていています。数年後、私たちの知っているツールはほとんどが全く別ものになってしまっているかもしれませんね。
では冒頭ポエムはこのくらいにして、今週のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
Google: オンプレミス版Geminiを提供開始
日本マーケットでは最強の一手な気がしますね、これは。導入も進みそう。
Anthropic: 約2兆円調達
もう基盤モデルは完全に資本力の殴り合いになっているので、ニッチ領域をどう攻めるか、ツルハシをどう売るかに舵を切った方がよさげ。
その他AI系話題
Codex CLIとClaude Codeの比較(英語)
タスクをやらせてみて真っ向から比較する記事はまだ少ないのでありがたい。要約としては、Claude Codeはより成熟しており、機能が豊富。一方、GPT-5 Highを搭載したCodexは急速に追い上げ、スマートで簡潔、そして使いやすいとのこと。
メルカリの「仕様書駆動データ分析」が拓く、コンテキストエンジニアリングの最前線
冒頭にも書きましたが、ツールに依存しない知見というのはこういった領域ですね。これをまとめ上げていくには、よりヒューマンスキルが必要になりそう。
Codex CLIを使いこなすための機能・設定まとめ
すごくよくまとまっています。とりあえずこれから使う人はこれを読んでおけばよさそう。
Claude CodeでBigQueryのクエリを実行する際のガードレールを設計する
Hookを使うやり方はClaude Code向けですが、コンテナとサンドボックスは汎用的に使えるので、まぁこっちですかね。
Kiroの良いところを伝えたい
そうなんですよ、ちょっと触った感じとてもいいんですが、料金体系があまりにアレで触るくらいしか出来てないんですよ。
AI コーディングエージェントの管理を行う Vibe Kanban を試してみた
Vibe Kanbanが一部で話題になっていたので記事を2本ご紹介。確かにカンバン式でAIエージェントタスクを管理するのは一覧性の観点でも進捗管理の観点でも良さそう。
Vibe Kanban + Codex が、Claude Codeよりも遙かに快適すぎる
Vibe Kanban2つ目。Codex以外にも対応していますが、Codexの悪癖をカバーできるとのこと。
退屈なことはDevinにやらせよう〜〜Devin APIを使ったVisual Regression Testの自動追加〜
VRT作成は面倒なので、Devinが自動的に作るようにしたお話。当社でも少しずつDevinノウハウが溜まってきましたが、やはりKnowledgeとPlaybookの活用がポイント。
Bedrock EvaluationsでKnowledge Bases RAGの検索精度を定量評価する - LLM as a Judgeな評価駆動開発
RAGの精度評価が自動でできるのはすごい、と思ったら、Bedrock Knowledge Bases前提でしたね……まぁそりゃそうか。外部システムにも汎用的に拡張できたら便利なんですが。
Grafana MCPサーバーによるAIエージェント経由でのGrafanaダッシュボード動的生成
データを解釈させるといったタスクの場合、やはりMCPレイヤーを挟むのが正解ぽいですね。全てのDWHにMCPが標準装備される日も遠くなさそう。
Anthropicがデータ利用方針をオプトアウト方式へ変更するよ
これはめちゃくちゃ重要。確認しましょう。
WEB開発系話題
Webアプリのベンチマークについて
このあたりの最新ノウハウはあまり持っていなかったので勉強になりました。
その他一般テック話題
リソース効率で考えるアーキテクチャ設計:機能要件を超えた技術選定の本質
おおむね同意だなぁと思いつつ、ビジネスレイヤーの視点も必要だなと感じます。1年後に資金が尽きるスタートアップと、大規模上場企業ではそもそも求められるものが大きく異なると思います。
Nx の攻撃から学べること
大作でめちゃくちゃ面白いです。ご存じない方のために簡単に説明すると、Nxのリポジトリが乗っ取られ汚染されたという事案で、GitHub ActionsでPRタイトルがルールに則っているか自動的にレビューするコードにスクリプトインジェクション脆弱性があったため、トークンを奪取されたというものです。コードをClaude Codeが生成していたためその点でも話題になりましたが、人間でも十分に起きうる内容です。
“ブラウザを自律操作するAI”が暴走 「要約して」と入力しただけなのにパスワードが盗まれた その手口とは?
先日当社ブログでも紹介した、人間に見えない文字列の命令に従ってしまうという脆弱性です。Computer-useなどの機能は強力ですが、まだまだセキュリティ面のガードレールは完全ではありません。
(当社関連記事)We are hiring!
私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
Discussion
3ヶ月後にはclaude codeしか勝たんことになってそう
そして半年後はcodex…