🎃

Flux.2触ってみた

に公開

はじめに

最近話題の画像生成モデル Flux.2 を実際に触ってみたので、セットアップから基本的な生成ワークフローまでをまとめました。

この記事では以下の流れで記載します。

  • Flux.2とは
  • Flux.2を動かす実行環境
  • Flux.2で Text to Image
  • Flux.2で Image to Image
  • 2枚の画像から画像生成

Fluxモデルを触ってみたい人や、ローカル環境で画像生成を試してみたい方の参考になれば嬉しいです。

環境

今回の検証環境は以下です。

  • OS:Windows 11
  • Pinokio:6.0.10
  • ComfyUI:0.13.0

Flux.2とは

Flux.2は、Black Forest Labsが開発した最新の画像生成モデルです。

https://bfl.ai/models/flux-2

テキストから画像を生成する Text to Image に加えて、画像を編集・合成する Image Editing / Image to Image にも対応しており、1つのモデルで幅広いワークフローを扱えるのが特徴です。

Flux.2では、最大10枚の画像を同時参照できるマルチリファレンス機能が追加され、キャラクターやスタイルの一貫性が大幅に向上しました。
また、モデルの描写力が強化され、光の反射、質感などがより自然に表現可能になっています。
テキスト描画精度も改善され、複雑なプロンプトへの追従性も向上しています。

Flux.2を動かす実行環境

Pinokio

PinokioはAIアプリ専用の環境自動構築ツールです。

https://pinokio.co/

面倒なセットアップ作業をほぼワンタップで実施することができます。

従来、AIツールを利用するには以下のような作業が必要でした。

  • Gitによるリポジトリのクローン
  • PythonやNode.jsなどのランタイム環境構築
  • 仮想環境(venv/condaなど)の作成
  • 依存ライブラリのインストールとバージョン調整
  • CUDAやGPU関連設定
  • WebUIの手動起動コマンド実行

Pinokioでは、アプリごとに用意されたインストールスクリプトをGUI上から実行することで、これらの工程を自動化できます。ユーザーは基本的に「Install」「Run」といった操作を行うだけで、必要な依存関係の解決や起動処理までを一括で実行できます。

ComfyUIのように、環境依存トラブルが発生しやすいプロジェクトにおいて、初期構築時のつまずきポイントを大幅に軽減できるのが特徴です。

また、アプリ単位で環境が分離されるため、複数のAIツールを同一PC上で比較的安全に共存させることが可能です。
これにより、検証用途における環境切り替えの負担も軽減できます。

ComfyUI

ComfyUIは、ノードベースで生成AIのワークフローを構築・実行できるツールです。

https://www.comfy.org/

プロンプトの入力、モデルの読み込み、画像生成、画像加工などの処理を ノードとして視覚的に接続することで、コードを書かずに生成パイプラインを構築することができます。
生成AIの処理フローを可視化しながら構築できることがComfyUIの大きな特徴です。

また、Flux.2だけでなく、Stable Diffusion系の多くのモデルを扱えます。
LoRAやControlNetもワークフローに組み込むことができます。

今回の記事では

  • 環境構築を簡単にする Pinokio
  • 柔軟なワークフローを構築できる ComfyUI

という2つのツールを組み合わせて、Flux.2を試していきます。

ComfyUIは、Pinokioが提供しているインストールスクリプトを利用することで、簡単にインストールできます。
https://pinokio.co/item.html?uri=https%3A%2F%2Fgithub.com%2Fpinokiofactory%2Fcomfy

Flux.2で Text to Image

まずは基本のテキストから画像生成です。

Pinokio上にComfyUIを起動後、ComfyUIのメニューからテンプレートを押下します。
今回は、FLUX.2-Klein 4Bを使用するため、テンプレートから「Flux.2 [Klein] : テキスト→画像」を選択します。

初めて起動する際は、画像生成に必要なFlux.2のモデルやテキストエンコーダー、VAEが不足しているためHugging Faceからダウンロードします。
https://huggingface.co/Comfy-Org/vae-text-encorder-for-flux-klein-4b/tree/main

ワークフローに存在するマークダウン形式のNoteに従いモデルを格納すれば、画像が生成できるようになります。

今回のワークフローは大きく以下の流れで構成されています。

  1. モデルの読み込み
  2. プロンプトのエンコード
  3. 画像サイズと初期ノイズの生成
  4. サンプリング(画像生成)
  5. 画像のデコードと出力

プロンプトに ヨーロッパの路地裏で歩く猫を撮影した、リアルなストリート写真風の画像を生成するように入力しました。
プロンプトを入力後、「実行をする」で画像が生成できます。

※【転載禁止】生成AIにより生成

Flux.2で Image to Image

次に先ほど生成した画像を編集してみます。

テンプレートから「Flux.2 [Klein] 4B : 画像編集」を選択し、作成されたワークフローに猫の画像をアップロードします。

背景は保持しながら、黒猫に修正を加えるようなプロンプトを入力し画像を生成してみます。
今回のワークフローではText to Imageの構成に加えて入力画像を参照するノードが追加されています。

黒猫に差し替えられた画像が生成できました。

※【転載禁止】生成AIにより生成

flux-fillのような、画像の一部分だけを再生成することが可能なモデルでは、元画像のうち変更したい領域をあらかじめマスクとして明示的に指定し、そのマスク部分のみを再生成することで、対象領域を意図した内容に編集可能でした。
この方法は、編集範囲をピンポイントで制御できるという利点がある一方で、マスク作成の手間や、境界で不自然な生成が起こることがありました。

flux.2では、プロンプトのみで元画像の背景や構図を維持しながら、編集した黒猫の質感も自然に反映することができています。

2枚の画像から画像生成

次は複数枚の画像から、新しい画像を生成します。

2枚の画像を読み込めるワークフローを使用し、1枚目の背景を保持しながら寝ているポーズに修正し、2枚目のヘッドホンを付けてもらった例です。

※【転載禁止】生成AIにより生成

プロンプトからあえて、1枚目の動物の種類・2枚目のヘッドホンの色の情報をなくしても、思い通りの画像が生成されました。

従来のモデルでは、コンシューマー向けのPCで複数枚画像のコンテキストを維持することが難しく、欲しい特徴のみを抽出できませんでした。
しかし、Flux.2では複数画像を同時に参照しながら、それぞれの要素を適切に分解して画像を再生成できることを確認できました。

おわりに

今回の記事は、業務とは直接関係のない個人的な興味からFlux.2とComfyUIを触ってみた記録になります。
実際に手を動かしてみることで、生成AIがどのような仕組みで動いているのかという理解の解像度が大きく上がったと感じています。

特にComfyUIは処理の流れを可視化する環境として非常に学びが多く、生成処理の流れをかなり具体的にイメージできるようになりました。

生成AIを取り巻く技術は今後さまざまな分野に広がっていく可能性があります。そういった変化に備える意味でも、こうした個人的な検証や実験は非常に価値があると感じました。

この記事が、これからローカル環境で画像生成を触ってみたい方や、ComfyUIに興味を持っている方の参考になれば嬉しいです。

Discussion