💡

[2025年8月29日] CLI競争とnano-banana (週刊AI)

に公開

こんにちは、Kaiです。
2週間ぶりの記事ですが、各社リリースが活発です。ここ最近の一番の話題は、nano-banana(Gemini-2.5-Flash-image)とCodex CLIあたりでしょうか。nano-bananaは私も早速使っていますが、これまでGPT一択だった画像生成領域で、さらに上回るものが登場した、という感覚です。このムーブはさすがにGoogleですね。

nano-bananaは雑に使ってももちろん素晴らしいのですが、特に画像を与えて生成させる際の「世界の理解」がとても深いように思います。これはOpenAIがSoraを発表したときに話題になった「世界モデル」という概念に通じるものがあると考えられます。つまり、画像生成モデルとして作られながら、その裏側では物理現象を始めとする「世界」を理解しているということを示唆しています。

nano-bananaの作例では、視点の変更、光源の変更、服や人物の入れ替えなどが、きわめて自然な形で行われているのが見て取れます。与えた画像を一つの世界としてエミュレートし、カメラを動かしたり光を当てたりしているのではないかと思うほどです。内部構造については知ることができませんが、本当にそのような現象がモデル内部で起きていてもおかしくありません。

そして、nano-bananaは、「nanoではない」ものも作られているのではないでしょうか?これがGoogle内部でミニマムモデルとして捉えられているならば、遥かにすごい(といってもそろそろ差分を人類が認識できなくなりつつありますが)モデルが準備されているのかもしれません。

さて、一方では開発AIエージェントのCLI競争が激化しています。Claude Codeが一瞬で席巻しましたが、性能劣化が指摘されている中、Gemini CLIおよびCodex CLIが巻き返しを図っています。特にCodexについては急激に進化しており、まだ機能面で追いついていない部分はあれど高い評価を得ています。

ただ、やはり感じるのは、モデルやサービスはこれからも月単位で最高のものが入れ替わっていく中で、「テキストとしてのナレッジ」と「AIと協働するノウハウ」を汎用的に蓄積することの重要性です。来月にはCodexが最高になっているかもしれませんし、年明けにはGeminiが最高になっているかもしれません。最近、AIスタートアップ界隈では「基盤モデルが進化したら劣化したり代替されたりするサービスは作るな。基盤モデルが進化したらサービス自体も良くなるものを作れ」と言われたりしています。これは開発スタイルでも同じで、新たなツールが登場したらより良いものづくりができる環境を整備していくことが重要です。

そのためには、やはり人間はドメイン知識、組織連携、サービスの将来像、ユーザの期待など、コードそのものではなくコードの存在意義を追求し言語化しておくことがポイントだと思います。今後さらなるモデルの進化を見据えると、エンジニアの仕事も常にその視点を保ち続けてシフトできるかが、分岐点になりそうです。

それでは2週間分のトピックスにいきましょう。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

Google: Gemini 2.5 Flash Image

nano-bananaという名前で出所を隠してオープンテストされていたモデルがついに登場。画像生成はGPT系が一つ頭抜けていましたが、これはそのさらに上を行きそうな気配。既に各所で話題になっており、一時期取りざたされていた「世界モデル」を感じる性能になっている模様です。
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
(日本語要約)
https://note.com/npaka/n/na87cc8ab43b1
https://note.com/npaka/n/n9aae8fd6e5fd

Google: Gemini APIにURLコンテクストツール

リソースをアップロードすることなくWebから取得できる、ということが主眼ですが、スクレイピングツールとしても使えるというアイデアが出ていました。
https://developers.googleblog.com/en/url-context-tool-for-gemini-api-now-generally-available/

OpenAI: gpt-realtime

サンプルを聞く限り、もう人間と全く区別がつきません。APIとして各サービスに実装されていくので、気付いたらAIとしゃべっていた、という世界がすぐ近くにありそうです。
https://openai.com/index/introducing-gpt-realtime/
(日本語要約)
https://note.com/npaka/n/nad9118c22c48

OpenAI: Codexを大幅に強化

これを受けてClaude Codeから乗り換える人も散見されました。まだ機能的には不足がありますが、すぐ追いついていくと思われます。
https://gihyo.jp/article/2025/08/openai-codex-new-ide-extension
比較はこちらのポストが分かりやすかったですね。
https://x.com/oikon48/status/1961024064786759787
(感想)
https://x.com/MLBear2/status/1961046204319674673

Anthropic: Claude for Chrome

Claudeが直接ブラウザを操作できる、Chrome向け拡張機能のアナウンス。まだ限定したMAXユーザのみで試用中とのこと。
https://claude.ai/chrome

DeepSeek-V3.1

リリースされました。gpt-ossもありますし、日本ではあまり使われないと思いますが、中国ではこれがデファクトになるはずなので動向だけはチェック。
https://huggingface.co/collections/deepseek-ai/deepseek-v31-68a491bed32bd77e7fca048f

OpenAI & Anthropic: 両社がお互いのフラッグシップモデルを評価

競合関係にある2社が、お互いのモデルを評価し合うという面白い試み。それぞれからレポートが公開されています。
https://alignment.anthropic.com/2025/openai-findings/
https://openai.com/index/openai-anthropic-safety-evaluation/

その他AI系話題

"あの頃"の強かったClaude Codeを少しでも取り戻す方法

性能劣化は各所で言われていますね。一応の工夫として。ただ最近はCodexに乗り換える人も多い模様。
https://zenn.dev/discus0434/scraps/e0b1a0aa5406eb

GPT-5⁠⁠、開発に使うための基礎知識  —⁠—ワンショットでのフロントエンド開発の各モデル比較も

様々なモデルのパラメータ比較とノウハウ、そして同じプロンプトで画面UIを作らせたときのサンプルがあります。だいたいここを見れば傾向を把握できそう。
https://gihyo.jp/article/2025/08/programming-with-chatgpt-05

メルカリIBIS:AIが拓く次世代インシデント対応

インシデント履歴DBとAIを統合したシステムを内製し、「バディ」としてインシデントにあたっているというお話。他にも応用が効きそうなアーキテクチャです。
https://speakerdeck.com/0gm/merukariibis-aigatuo-kuci-shi-dai-insidentodui-ying

実用品を作って探る生成AIを使ったソフトウェア開発の現在

「恍惚とした最初の一週→リファクタ地獄とプロセス整備の二週、三週」というのはちょっと笑ってしまいました。ただ、AI成果物の8割は無意味というのはちょっと肌感と異なるので、分野次第なのかもしれません。こちらの方はRustプロジェクトですが、Python/Typescriptではそこまでではない気がします。
https://tech.dentsusoken.com/entry/2025/08/27/実用品を作って探る生成AIを使ったソフトウェア開

LLM監視を入れるべき4つの場所

本来、AIエージェントを用いた開発ワークフローは実行役と監視役の双方が必要だと思っています。具体的に「どうやる」は書いてありませんが、「どうあるべきか」という参考として。
https://blog.redwoodresearch.org/p/four-places-where-you-can-put-llm

サブスクリプションが始まったKiroに関する最近の事情

正直、Kiroの料金体系はさっぱりわからんというのが私の感触ですね……。
https://zenn.dev/beagle/articles/5360946ada5607

GPT-5 の教科書

教科書と言っても使い方ノウハウではなく、どのようなモデルでどのような特徴があるかといった、モデルカードの内容を中心にまとめたものです。
https://zenn.dev/microsoft/articles/openai_gpt5_textbook

ClaudeCodeで挑むコンテキストエンジニアリング実践

モデルが進化しても、LLMの限界であるコンテキストウィンドウの問題は立ちはだかり続けます。そういう意味で、どうコンテクストを管理していくかは重要なポイント。
https://zenn.dev/aki_think/articles/66f6fc7530467a

gpt-ossモデルのサービングにおけるリクエスト処理性能評価 ― NVIDIA H100・A100・L4の比較

実際にA100やL4を用いて推論させる方は多くないと思いますが、しっかりしたベンチマークなので他への応用も効きそうです。
https://rand.pepabo.com/article/2025/08/18/gpt-oss/

AI時代に問い直すユニットテストの価値

おおむね同じ感覚を持っています。特にガイドラインの部分で、AIの動作を制御するためのドキュメント群を頑張って作ることが重要だと思います。
https://www.docswell.com/s/tyonekubo/K44MXJ-value-of-unittesting?utm_source=twitter&utm_medium=social&utm_campaign=singlepage

AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?

こちらもAIによるテストの検証。実際にやってみて、「かなりいい線だが、きちんと制御が必要。人間とは役割分担」というような結論にまとめています。
https://speakerdeck.com/mineo_matsuya/aihabian-geng-chai-fen-karayunitutotesuto-jie-he-tesuto-sisutemutesutodetesutosubekikotogachu-serunoka

全自動コードレビューの夢 〜実際に活用されるAIコードレビューの実現に向けて〜

当社ではCopilotを使っていますが、Greptileは知りませんでした。よさそう。
https://speakerdeck.com/shibukazu/quan-zi-dong-kodorebiyunomeng-shi-ji-nihuo-yong-sareruaikodorebiyunoshi-xian-nixiang-kete

AIレビューでインシデントを未然に防ぐ仕組みづくり

インシデントのみならず、この手法は割と普遍的に使えると思っています。エージェントに問題を指摘させ、見つけられない場合は何が起きるかを伝えて思考させ、その内容をドキュメントに追記させる、という感じですね。
https://zenn.dev/primenumber/articles/dc4c64ebdbc9b2

Claude Code の学習モードで自分の手でコードを書く練習をしよう

おお、これは良さそう。初めて触る言語などではこれで感覚をつかんでいくと早そうです。
https://azukiazusa.dev/blog/claude-code-learning-mode/

AIの“Web操作”成功率、人間超えに成功 NECが世界初

珍しく日本発のSOTA。がんばってほしいところ。
https://www.itmedia.co.jp/aiplus/articles/2508/27/news094.html

Training LLMs with Limited VRAM

すごい。業務というより趣味マシンでLLM学習させるときめちゃくちゃ参考になる。
https://speakerdeck.com/tascj/di-4hui-guan-dong-kagglerhui-training-llms-with-limited-vram

モノタロウでCursorを導入してみた理想と現実、それと未来

かなりの規模の組織で導入したナマの声。Devinは100%タスクを委任できるがゆえにすぐ効果が可視化され、ツール系は配るだけでなく継続的な介入と改善が必要、とのことです。
https://speakerdeck.com/monotaro/monotaroudecursorwodao-ru-sitemitali-xiang-toxian-shi-soretowei-lai

agent.mdサイト誕生

割とデファクトになりつつあるような。claude.mdが統合されればなおよいのですが。
https://agents.md/

WEB開発系話題

SSL/TLS の変遷と代表的な脆弱性

普段あんまり意識しなくなっていきますが、復習と知識アップデートにちょうどいいボリューム感です。
https://qiita.com/whoami_priv/items/748169d79e532fc8793a

他言語経験者が知っておきたいTypeScriptのクラスの注意点

コード例を含めかなり詳細な内容。どうしても私はJS/TSのthisに違和感を覚え続けているんですがね……。
https://kakehashi-dev.hatenablog.com/entry/2025/08/19/110000

ZOZOTOWNフロントエンドにおけるディレクトリの分割戦略

非常に実践的な内容。理由とともに、実際の分割内容まで言及しています。
https://speakerdeck.com/zozotech/zozotown-frontend-directory-design

その他一般テック話題

設計・開発・テストにおけるセキュリティの実践と考え方を知ろう

400p近くあるんですが、これ無料でいいの???
https://www.docswell.com/s/a-zara-n/KPGX74-2025-08-14-143959

同じ5行のコードが全く違って見える12の瞬間、なぜ私たちは学ぶのか?

めちゃくちゃバズっていました。素晴らしい記事です。初心を取り戻す意味でも、全エンジニアに読んで欲しいですし、エンジニアに仕事を依頼する人たちにもぜひ読んで欲しいです。
https://zenn.dev/coconala/articles/reasons-for-continuing-to-learn

作るのが簡単になった時代にこそ大事にしたい 小さく作る、あるいは作らない技術

サービスは得てして肥大化し、全部入りになりがち。ユーザが仮に欲しいと言っても、やらないことを決める、というのは重要だと思います。
https://note.com/shiori440/n/ne4ee54b7d44a

We are hiring!

私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
https://zenn.dev/carenet/articles/4c0dadd193c6b6

積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
https://hrmos.co/pages/carenet5800/jobs/1826582723293220966
https://hrmos.co/pages/carenet5800/jobs/0000020

CareNet Engineers

Discussion