[2025年8月29日] CLI競争とnano-banana (週刊AI)
こんにちは、Kaiです。
2週間ぶりの記事ですが、各社リリースが活発です。ここ最近の一番の話題は、nano-banana(Gemini-2.5-Flash-image)とCodex CLIあたりでしょうか。nano-bananaは私も早速使っていますが、これまでGPT一択だった画像生成領域で、さらに上回るものが登場した、という感覚です。このムーブはさすがにGoogleですね。
nano-bananaは雑に使ってももちろん素晴らしいのですが、特に画像を与えて生成させる際の「世界の理解」がとても深いように思います。これはOpenAIがSoraを発表したときに話題になった「世界モデル」という概念に通じるものがあると考えられます。つまり、画像生成モデルとして作られながら、その裏側では物理現象を始めとする「世界」を理解しているということを示唆しています。
nano-bananaの作例では、視点の変更、光源の変更、服や人物の入れ替えなどが、きわめて自然な形で行われているのが見て取れます。与えた画像を一つの世界としてエミュレートし、カメラを動かしたり光を当てたりしているのではないかと思うほどです。内部構造については知ることができませんが、本当にそのような現象がモデル内部で起きていてもおかしくありません。
そして、nano-bananaは、「nanoではない」ものも作られているのではないでしょうか?これがGoogle内部でミニマムモデルとして捉えられているならば、遥かにすごい(といってもそろそろ差分を人類が認識できなくなりつつありますが)モデルが準備されているのかもしれません。
さて、一方では開発AIエージェントのCLI競争が激化しています。Claude Codeが一瞬で席巻しましたが、性能劣化が指摘されている中、Gemini CLIおよびCodex CLIが巻き返しを図っています。特にCodexについては急激に進化しており、まだ機能面で追いついていない部分はあれど高い評価を得ています。
ただ、やはり感じるのは、モデルやサービスはこれからも月単位で最高のものが入れ替わっていく中で、「テキストとしてのナレッジ」と「AIと協働するノウハウ」を汎用的に蓄積することの重要性です。来月にはCodexが最高になっているかもしれませんし、年明けにはGeminiが最高になっているかもしれません。最近、AIスタートアップ界隈では「基盤モデルが進化したら劣化したり代替されたりするサービスは作るな。基盤モデルが進化したらサービス自体も良くなるものを作れ」と言われたりしています。これは開発スタイルでも同じで、新たなツールが登場したらより良いものづくりができる環境を整備していくことが重要です。
そのためには、やはり人間はドメイン知識、組織連携、サービスの将来像、ユーザの期待など、コードそのものではなくコードの存在意義を追求し言語化しておくことがポイントだと思います。今後さらなるモデルの進化を見据えると、エンジニアの仕事も常にその視点を保ち続けてシフトできるかが、分岐点になりそうです。
それでは2週間分のトピックスにいきましょう。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
Google: Gemini 2.5 Flash Image
nano-bananaという名前で出所を隠してオープンテストされていたモデルがついに登場。画像生成はGPT系が一つ頭抜けていましたが、これはそのさらに上を行きそうな気配。既に各所で話題になっており、一時期取りざたされていた「世界モデル」を感じる性能になっている模様です。 (日本語要約)
Google: Gemini APIにURLコンテクストツール
リソースをアップロードすることなくWebから取得できる、ということが主眼ですが、スクレイピングツールとしても使えるというアイデアが出ていました。
OpenAI: gpt-realtime
サンプルを聞く限り、もう人間と全く区別がつきません。APIとして各サービスに実装されていくので、気付いたらAIとしゃべっていた、という世界がすぐ近くにありそうです。 (日本語要約)
OpenAI: Codexを大幅に強化
これを受けてClaude Codeから乗り換える人も散見されました。まだ機能的には不足がありますが、すぐ追いついていくと思われます。 比較はこちらのポストが分かりやすかったですね。 (感想)
Anthropic: Claude for Chrome
Claudeが直接ブラウザを操作できる、Chrome向け拡張機能のアナウンス。まだ限定したMAXユーザのみで試用中とのこと。
DeepSeek-V3.1
リリースされました。gpt-ossもありますし、日本ではあまり使われないと思いますが、中国ではこれがデファクトになるはずなので動向だけはチェック。
OpenAI & Anthropic: 両社がお互いのフラッグシップモデルを評価
競合関係にある2社が、お互いのモデルを評価し合うという面白い試み。それぞれからレポートが公開されています。
その他AI系話題
"あの頃"の強かったClaude Codeを少しでも取り戻す方法
性能劣化は各所で言われていますね。一応の工夫として。ただ最近はCodexに乗り換える人も多い模様。
GPT-5、開発に使うための基礎知識 ——ワンショットでのフロントエンド開発の各モデル比較も
様々なモデルのパラメータ比較とノウハウ、そして同じプロンプトで画面UIを作らせたときのサンプルがあります。だいたいここを見れば傾向を把握できそう。
メルカリIBIS:AIが拓く次世代インシデント対応
インシデント履歴DBとAIを統合したシステムを内製し、「バディ」としてインシデントにあたっているというお話。他にも応用が効きそうなアーキテクチャです。
実用品を作って探る生成AIを使ったソフトウェア開発の現在
「恍惚とした最初の一週→リファクタ地獄とプロセス整備の二週、三週」というのはちょっと笑ってしまいました。ただ、AI成果物の8割は無意味というのはちょっと肌感と異なるので、分野次第なのかもしれません。こちらの方はRustプロジェクトですが、Python/Typescriptではそこまでではない気がします。
LLM監視を入れるべき4つの場所
本来、AIエージェントを用いた開発ワークフローは実行役と監視役の双方が必要だと思っています。具体的に「どうやる」は書いてありませんが、「どうあるべきか」という参考として。
サブスクリプションが始まったKiroに関する最近の事情
正直、Kiroの料金体系はさっぱりわからんというのが私の感触ですね……。
GPT-5 の教科書
教科書と言っても使い方ノウハウではなく、どのようなモデルでどのような特徴があるかといった、モデルカードの内容を中心にまとめたものです。
ClaudeCodeで挑むコンテキストエンジニアリング実践
モデルが進化しても、LLMの限界であるコンテキストウィンドウの問題は立ちはだかり続けます。そういう意味で、どうコンテクストを管理していくかは重要なポイント。
gpt-ossモデルのサービングにおけるリクエスト処理性能評価 ― NVIDIA H100・A100・L4の比較
実際にA100やL4を用いて推論させる方は多くないと思いますが、しっかりしたベンチマークなので他への応用も効きそうです。
AI時代に問い直すユニットテストの価値
おおむね同じ感覚を持っています。特にガイドラインの部分で、AIの動作を制御するためのドキュメント群を頑張って作ることが重要だと思います。
AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?
こちらもAIによるテストの検証。実際にやってみて、「かなりいい線だが、きちんと制御が必要。人間とは役割分担」というような結論にまとめています。
全自動コードレビューの夢 〜実際に活用されるAIコードレビューの実現に向けて〜
当社ではCopilotを使っていますが、Greptileは知りませんでした。よさそう。
AIレビューでインシデントを未然に防ぐ仕組みづくり
インシデントのみならず、この手法は割と普遍的に使えると思っています。エージェントに問題を指摘させ、見つけられない場合は何が起きるかを伝えて思考させ、その内容をドキュメントに追記させる、という感じですね。
Claude Code の学習モードで自分の手でコードを書く練習をしよう
おお、これは良さそう。初めて触る言語などではこれで感覚をつかんでいくと早そうです。
AIの“Web操作”成功率、人間超えに成功 NECが世界初
珍しく日本発のSOTA。がんばってほしいところ。
Training LLMs with Limited VRAM
すごい。業務というより趣味マシンでLLM学習させるときめちゃくちゃ参考になる。
モノタロウでCursorを導入してみた理想と現実、それと未来
かなりの規模の組織で導入したナマの声。Devinは100%タスクを委任できるがゆえにすぐ効果が可視化され、ツール系は配るだけでなく継続的な介入と改善が必要、とのことです。
agent.mdサイト誕生
割とデファクトになりつつあるような。claude.mdが統合されればなおよいのですが。
WEB開発系話題
SSL/TLS の変遷と代表的な脆弱性
普段あんまり意識しなくなっていきますが、復習と知識アップデートにちょうどいいボリューム感です。
他言語経験者が知っておきたいTypeScriptのクラスの注意点
コード例を含めかなり詳細な内容。どうしても私はJS/TSのthisに違和感を覚え続けているんですがね……。
ZOZOTOWNフロントエンドにおけるディレクトリの分割戦略
非常に実践的な内容。理由とともに、実際の分割内容まで言及しています。
その他一般テック話題
設計・開発・テストにおけるセキュリティの実践と考え方を知ろう
400p近くあるんですが、これ無料でいいの???
同じ5行のコードが全く違って見える12の瞬間、なぜ私たちは学ぶのか?
めちゃくちゃバズっていました。素晴らしい記事です。初心を取り戻す意味でも、全エンジニアに読んで欲しいですし、エンジニアに仕事を依頼する人たちにもぜひ読んで欲しいです。
作るのが簡単になった時代にこそ大事にしたい 小さく作る、あるいは作らない技術
サービスは得てして肥大化し、全部入りになりがち。ユーザが仮に欲しいと言っても、やらないことを決める、というのは重要だと思います。
We are hiring!
私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
Discussion