🍌

Qwen-Image-Edit-2509 の性能検証 (vs Nano Banana)

2025/09/28に公開

Nano Banana や ChatGPT でおなじみの AI による画像編集ですが、たくさん試したいのに数回使ったらすぐ制限が来てしまうとか、ライセンス的に利用しづらいとか、そういった問題が起こることがあります。そこで今回は、オープンウェイトでローカルでも利用できる Qwen-Image-Edit とその改良版 Qwen-Image-Edit-2509 を使って、環境構築と性能検証を行ってみます。
!Qwen-Image-Edit と Qwen-Image-Edit-2509 は互換性がなく、同じワークフローでモデルを変えただけでは正しく動きません。 TextEncodeQwenImageEdit ノードは Qwen-Image-Edit ではサンプル通り正しく動きますが、 Qwen-Image-Edit-2509 とは相性が悪く、 TextEncodeQwenImageEditPlus ノードを利用する必要があるようです。
（マイナーバージョンアップだと思ってモデル変更を試して、エラーは発生しなかったのですが、プロンプトへの追従率がかなり下がってしまう現象を確認しました。みなさまもご注意ください）

 準備下記が準備されていることを前提とします。
GPU が搭載された PC
今回は RTX4090 (24GB) を使用しています。省メモリ化についてはこの記事では取り扱いません

ComfyUI のインストール
この記事では省略します。公式ドキュメント https://docs.comfy.org/installation/manual_install などを参照してください

!私の環境では旧バージョン (0.3.38) の ComfyUI がインストール済みでしたが、そのままでは動作せず下記のようなエラーが発生しました。
プラグインではなく公式にノードが追加されているようで、メニュー右上の Manager → Update All から最新バージョン (0.3.60) に更新したら動くようになりました。

 環境構築
 Qwen-Image-Edit 公式サンプルまず、公式ドキュメント https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit に従って Qwen-Image-Edit を動かす環境を構築します。
サンプルのワークフローが保存された下記の画像（公式ドキュメントから転載）をComfyUIの画面上にドラッグ＆ドロップします。
すると下記のように不足しているモデル一覧が表示されるので、 ComfyUI/models/ 以下に指定されたとおりに配置していきます。
"Step 2 - Upload Image for editing" グループ内の Load Image ノードに、入力となる画像をドラッグ＆ドロップします。
下のように、入力した画像が表示されていることを確認します。
プロンプトはワークフロー初期化時に入力済みの状態なので、あとは Run ボタンを押すだけで動き始めます。
しばらく待つと右端のノードに、ワークフローとして期待した通りの画像が表示されたので、動作が確認できました。
GPU メモリは 20GB 以上使っています。

 高速化 LoRA上記の生成では20ステップの生成で78.44秒かかりました。もっと高速に実行させるために、公式ワークフローに含まれている 4steps LoRA を導入します。
まず、中央上にある LoraLoaderModelOnly ノードを選択し、 Ctrl + B キーで有効化します。
次に、右側にある KSampler ノードの steps を 4, cfg を 1.0 （ワークフロー右下のノートの推奨値）に変更します。
これらが完了すると下記のようになっているはずです。
あとは同じように Run ボタンを押せば実行が始まります。 15.53 秒で完了し、次のような画像が生成されました。
指示への追従度は下がっていて、表題のテキストが残ったままになってしまっていますが、左上と下にあるテキストは削除できていて、ステップが減った分5倍ほど高速化されています。
!ちなみに単に LoRA を無効化した場合 (steps=4, cfg=1.0)、実行時間は 15.80 秒と LoRA 有効時と大差ないですが、文字が全体的に薄くなった中間状態のような画像が生成されます。
LoRA を有効化すると、このような中間状態を出しにくくして、すぐに最終的な結果が出力されるように変わることが観察されます。
!LoRA ありでステップ数を6や8に増やしたり、 cfg を 2.0 に増やしたりしても生成結果は改善されませんでした。一方で、LoRA を無効化して、 Remove all UI text elements from the image, including center title logo. とタイトルを削除するようにプロンプトに明記したところ、 steps=4, cfg=1.0 でも想定通りの変換がされるようになりました。
プロンプトによる明確な指示は、他の生成AIと同じく重要であることがわかります。

 Qwen-Image-Edit-2509次に、Qwen-Image-Edit-2509 の公式ワークフローをこちらからダウンロードして、ComfyUI にドラッグ＆ドロップします。
https://github.com/Comfy-Org/workflow_templates/blob/main/templates/image_qwen_image_edit_2509.json
先ほどと同様に、モデルダウンロード画面が表示されるので、 qwen_image_edit_2509_fp8_e4m3fn.safetensors をダウンロードして ComfyUI/models/diffusion_models/ に配置します。
そして、次の画像を "Step 2 - Upload image for editing" グループの 1 つめの Load Image にドラッグ＆ドロップします。
完了すると、このような状態になっているはずです。
最後に Run ボタンを押すと、 15.73 秒で次の画像が生成されました。プロンプト Replace the cat with a dalmatian に沿った結果になっていることが確認できます。

 性能検証公式ブログに既に多くの作例がありますが、より実際の応用に近い例をいくつか試してみます。

 部屋の画像編集まずはサンプルとして、 Qwen-Image モデルを利用して次のような部屋の画像を生成します。
これに対して、 Qwen-Image-Edit を利用した修正を試してみます。たとえば、プロンプトを delete sofa とすると次のようになります。
差分をとると、確かに他の物体の位置をまったく変えずにソファーだけ削除して、あるはずの場所に床や窓などを描画していることがわかります。またソファーで遮られなくなったためカーペットがより明るく描画されているのもリアルに見えます。
一方で、プロンプトを Convert it into a top-down image とすると次のようになりました。
上から見た画像になっていて、家具の配置も近いですが、ソファーの形やカーペットの角度など、入力画像を上から見た図としてはかなり間違っています。
一方、 Qwen-Image-Edit-2509 ではかなり改善されており、家具の配置や模様が問題なく生成されていることが確認できます。
Nano Banana は、さらに真上から撮ったような正確な画像を生成することができます。モデル性能のうち、複雑な空間認識能力は Nano Banana がやはり優れている印象です。
ChatGPT に同じプロンプトを入力したところ、こちらも真上からの画像が生成されました。ただし、クッションの配置やカーペット・絵の模様など、細かいところで忠実性が足りないように見えます。
テキストプロンプトへの追従性と、画像入力からの正確性について、今回の結果をまとめると次のようになります。


モデル名
追従性
正確性


Qwen-Image-Edit
×
×

Qwen-Image-Edit-2509
△
○

Nano Banana
○
○

ChatGPT
○
△


 ロゴ編集次に、雑誌やウェブサイトの文字デザインを題材として、ロゴの編集をしてみます。入力として、単に文字だけが書かれた画像を用意します（フリーフォントを使うのがよさそうです）。
decorate for logo, theme color is yellow, banana-themed, flat design というプロンプトで編集した一例を示します。


モデル名
生成結果


Qwen-Image-Edit


Qwen-Image-Edit-2509


Nano Banana


ChatGPT


人によって評価は分かれるところかと思いますが、個人的には Qwen-Image-Edit-2509 の生成結果が視認性とロゴとしての派手さを兼ね備えていて一番良いのではないかなと思いました。
Qwen-Image-Edit-2509 を利用して、プロンプトを変えた例をいくつか見てみます。






公式ブログでも文字変換はかなり強く推されていた印象ですが、複雑な変換が必要ないのであれば Nano Banana よりも使いやすいと感じました。

 まとめQwen-Image-Edit と Qwen-Image-Edit-2509 を RTX4090 + ComfyUI 上で動かすことができた
ノードは各モデル専用で、互換性がないことを確認した

部屋の画像変換とロゴ生成の2種類のタスクを題材に、 Nano Banana, ChatGPT を含めた4モデルで性能比較ができた
複雑な推論が必要なシーンで Nano Banana の出力と比較すると差があると感じることはあるが、単独で出されたらどちらか見分けがつかない程度の表現力・正確性はある
画像生成は LLM に比べてかなり SOTA に近い

4steps LoRA を使うと15秒くらいで生成されるので、Nano Banana と使用感はほぼ変わらないうえに、ローカルで生成し放題であるのはとても嬉しい
ChatGPT の画像生成で1分くらい待たされるのがストレスに感じる



 参考公式ブログ
Qwen-Image-Edit https://qwen.ai/blog?id=a6f483777144685d33cd3d2af95136fcbeb57652&from=research.research-list
Qwen-Image-Edit-2509 https://qwen.ai/blog?id=1675c295dc29dd31073e5b3f72876e9d684e41c6&from=research.research-list

comfyui ドキュメント https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit

モデル名	追従性	正確性
Qwen-Image-Edit	×	×
Qwen-Image-Edit-2509	△	○
Nano Banana	○	○
ChatGPT	○	△

準備

環境構築

Qwen-Image-Edit 公式サンプル

高速化 LoRA

Qwen-Image-Edit-2509

性能検証

部屋の画像編集

ロゴ編集

まとめ

参考

Discussion