🍌

Qwen-Image-Edit-2509 の性能検証 (vs Nano Banana)

に公開

Nano Banana や ChatGPT でおなじみの AI による画像編集ですが、たくさん試したいのに数回使ったらすぐ制限が来てしまうとか、ライセンス的に利用しづらいとか、そういった問題が起こることがあります。そこで今回は、オープンウェイトでローカルでも利用できる Qwen-Image-Edit とその改良版 Qwen-Image-Edit-2509 を使って、環境構築と性能検証を行ってみます。

準備

下記が準備されていることを前提とします。

  • GPU が搭載された PC
    • 今回は RTX4090 (24GB) を使用しています。省メモリ化についてはこの記事では取り扱いません
  • ComfyUI のインストール

環境構築

Qwen-Image-Edit 公式サンプル

まず、公式ドキュメント https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit に従って Qwen-Image-Edit を動かす環境を構築します。

サンプルのワークフローが保存された下記の画像(公式ドキュメントから転載)をComfyUIの画面上にドラッグ&ドロップします。

すると下記のように不足しているモデル一覧が表示されるので、 ComfyUI/models/ 以下に指定されたとおりに配置していきます。

"Step 2 - Upload Image for editing" グループ内の Load Image ノードに、入力となる画像をドラッグ&ドロップします。

下のように、入力した画像が表示されていることを確認します。

プロンプトはワークフロー初期化時に入力済みの状態なので、あとは Run ボタンを押すだけで動き始めます。

しばらく待つと右端のノードに、ワークフローとして期待した通りの画像が表示されたので、動作が確認できました。

GPU メモリは 20GB 以上使っています。

高速化 LoRA

上記の生成では20ステップの生成で78.44秒かかりました。もっと高速に実行させるために、公式ワークフローに含まれている 4steps LoRA を導入します。

まず、中央上にある LoraLoaderModelOnly ノードを選択し、 Ctrl + B キーで有効化します。

次に、右側にある KSampler ノードの steps を 4, cfg を 1.0 (ワークフロー右下のノートの推奨値)に変更します。

これらが完了すると下記のようになっているはずです。

あとは同じように Run ボタンを押せば実行が始まります。 15.53 秒で完了し、次のような画像が生成されました。

指示への追従度は下がっていて、表題のテキストが残ったままになってしまっていますが、左上と下にあるテキストは削除できていて、ステップが減った分5倍ほど高速化されています。

Qwen-Image-Edit-2509

次に、Qwen-Image-Edit-2509 の公式ワークフローをこちらからダウンロードして、ComfyUI にドラッグ&ドロップします。

https://github.com/Comfy-Org/workflow_templates/blob/main/templates/image_qwen_image_edit_2509.json

先ほどと同様に、モデルダウンロード画面が表示されるので、 qwen_image_edit_2509_fp8_e4m3fn.safetensors をダウンロードして ComfyUI/models/diffusion_models/ に配置します。

そして、次の画像を "Step 2 - Upload image for editing" グループの 1 つめの Load Image にドラッグ&ドロップします。

完了すると、このような状態になっているはずです。

最後に Run ボタンを押すと、 15.73 秒で次の画像が生成されました。プロンプト Replace the cat with a dalmatian に沿った結果になっていることが確認できます。

性能検証

公式ブログに既に多くの作例がありますが、より実際の応用に近い例をいくつか試してみます。

部屋の画像編集

まずはサンプルとして、 Qwen-Image モデルを利用して次のような部屋の画像を生成します。

これに対して、 Qwen-Image-Edit を利用した修正を試してみます。たとえば、プロンプトを delete sofa とすると次のようになります。

差分をとると、確かに他の物体の位置をまったく変えずにソファーだけ削除して、あるはずの場所に床や窓などを描画していることがわかります。またソファーで遮られなくなったためカーペットがより明るく描画されているのもリアルに見えます。

一方で、プロンプトを Convert it into a top-down image とすると次のようになりました。

上から見た画像になっていて、家具の配置も近いですが、ソファーの形やカーペットの角度など、入力画像を上から見た図としてはかなり間違っています。

一方、 Qwen-Image-Edit-2509 ではかなり改善されており、家具の配置や模様が問題なく生成されていることが確認できます。

Nano Banana は、さらに真上から撮ったような正確な画像を生成することができます。モデル性能のうち、複雑な空間認識能力は Nano Banana がやはり優れている印象です。

ChatGPT に同じプロンプトを入力したところ、こちらも真上からの画像が生成されました。ただし、クッションの配置やカーペット・絵の模様など、細かいところで忠実性が足りないように見えます。

テキストプロンプトへの追従性と、画像入力からの正確性について、今回の結果をまとめると次のようになります。

モデル名 追従性 正確性
Qwen-Image-Edit × ×
Qwen-Image-Edit-2509
Nano Banana
ChatGPT

ロゴ編集

次に、雑誌やウェブサイトの文字デザインを題材として、ロゴの編集をしてみます。入力として、単に文字だけが書かれた画像を用意します(フリーフォントを使うのがよさそうです)。

decorate for logo, theme color is yellow, banana-themed, flat design というプロンプトで編集した一例を示します。

モデル名 生成結果
Qwen-Image-Edit
Qwen-Image-Edit-2509
Nano Banana
ChatGPT

人によって評価は分かれるところかと思いますが、個人的には Qwen-Image-Edit-2509 の生成結果が視認性とロゴとしての派手さを兼ね備えていて一番良いのではないかなと思いました。

Qwen-Image-Edit-2509 を利用して、プロンプトを変えた例をいくつか見てみます。




公式ブログでも文字変換はかなり強く推されていた印象ですが、複雑な変換が必要ないのであれば Nano Banana よりも使いやすいと感じました。

まとめ

  • Qwen-Image-Edit と Qwen-Image-Edit-2509 を RTX4090 + ComfyUI 上で動かすことができた
    • ノードは各モデル専用で、互換性がないことを確認した
  • 部屋の画像変換とロゴ生成の2種類のタスクを題材に、 Nano Banana, ChatGPT を含めた4モデルで性能比較ができた
    • 複雑な推論が必要なシーンで Nano Banana の出力と比較すると差があると感じることはあるが、単独で出されたらどちらか見分けがつかない程度の表現力・正確性はある
      • 画像生成は LLM に比べてかなり SOTA に近い
    • 4steps LoRA を使うと15秒くらいで生成されるので、Nano Banana と使用感はほぼ変わらないうえに、ローカルで生成し放題であるのはとても嬉しい
      • ChatGPT の画像生成で1分くらい待たされるのがストレスに感じる

参考

Discussion