🤖

【実践解説】オンプレミスで動く最新画像生成AIモデル「Janus-4o」と高精度データセット「ShareGPT-4o-Image」

に公開

この記事の概要

2025年6月22日に出版された最新の「ShareGPT-4o-Image」と「Janus-4o」について解説します。

GPT-4o-Imageのような先進的な画像生成AIモデルへは一般的にアクセスすることができません。このような技術を民主化するために、新しい効果的な画像データセットが ShareGPT-4o-Imageで、このデータセットを使って学習された画像生成AIが Janus-4o です。つまり高精度の画像生成モデルをオンプレミスで動かすことができるようになったのです。

モデルが公開されているので、本記事では実際に使ってみて、この最新のオープン技術を確かめていきます。



対象読者

  • Janus-4oをGoogle Colaboratoryで試してみたい方
  • AIの最新動向を追いたい方
  • 画像生成AIを開発・利用する研究者または開発者
  • ShareGPTの論文を日本語でキャッチアップしたい方
  • ShareGPTを使って学習された生成AIの性能を視覚的に確認したい方



論文紹介:ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation(2025)

概要

  • GPT-4o-Imageは高性能な画像生成能力を持つが、独占的で非公開
  • これに対処するため、研究チームはShareGPT-4o-Imageという合成データセット(4.5万のテキスト-画像、4.6万のテキスト-画像-画像データ)を構築。
  • このデータセットを用いて、Janus-Proをファインチューニングし、Janus-4oを開発。
  • Janus-4oは新たにテキスト-画像-画像生成をサポートし、8基のA800 GPUを用いた6時間のトレーニングで高性能を達成。
  • 研究の意義:画像生成の民主化とオープン研究の促進

Janus-Pro (ヤヌス・プロ)
テキストと画像を同時に扱うことができるマルチモーダル大規模言語モデルの一つです。このモデルは、テキストの指示(プロンプト)を理解するだけでなく、画像の内容も理解し、それらを関連付けた応答を生成する能力を持っています。

A800 GPU
NVIDIA社が開発したGPUです。Janus-4oの開発ではこのA800 GPUが8基使用されています。このGPUは大規模のAIモデルの学習や推論に利用され、通常のコンピューターでは数ヶ月かかるような計算を、数時間から数日で終えることができます。


論文の主張

  • オープンソースの高性能な画像データセットとマルチモーダル(画像+テキスト)の画像生成AIモデルを開発したこと。
  • Janus-4oのファインチューニングに8機のA800 GPUを用いて、たった6時間で学習できたこと。

画像データセットの作成方法


(引用:ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation, Fig3)


次の方法で作成されました。

  • (画像, テキスト)ペア(45,000個のデータ):Text-To-Imageデータセット

    • プロンプトファースト

      1. 属性空間(オブジェクト・背景・スタイルなど6次元)を組み合わせてプロンプトをGemini-Pro-2.5で生成。
      2. GPT-4o-Imageで画像を生成。
    • イメージファースト

      1. ALLaVAデータセットから、現実世界に存在する多様で高品質な画像を取得。
      2. 各画像に対して、Gemini-Pro-2.5がその視覚的なコンテンツを正確に反映する詳細で記述的なテキストプロンプトを生成。
      3. 生成されたプロンプトと元の画像をペアとする。

      このアプローチによって、データセットのテキスト分布が、自然に発生するシーンを記述するために必要な言語も捉えられるようにすることが保証されます。

  • (画像, 編集指示, 編集された画像)ペア(46,000個のデータ):Text-and-Image-To-Imageデータセット

    このデータセットは、指示に対して画像を編集能力を獲得することを目的に作成されました。

    1. ソース画像の選択

      新たにGPT-4o-Imageで生成された画像またはALLaVAデータセットから取得。

    2. 編集タスクのサンプリング

      予め定義された14種類の画像編集タスクから、1つの編集タスクが決定。

    3. 自然言語による編集指示の作成

      Gemini-Pro-2.5がソース画像と編集タスクに応じて、編集指示を生成。

    4. 編集された画像の生成

      ソース画像と編集指示から、GPT-4o-Imageで編集された画像生成。

      ソース画像、編集指示、編集された画像をペアとする。



上記の3つの方法で作成された合計91,000個のデータセットが「Share-GPT-4o-Image」として公開されました。


ファインチューニング:Janus-Pro → Janus-4o

項目 内容
ベースモデル Janus-Pro-7B
出力モデル Janus-4o
使用データ ShareGPT-4o-Image(Text-to-Image: 45K + Text-and-Image-to-Image: 46K)
学習タスク ① Text-to-Image ② Text-and-Image-to-Image(両タスクを同時に学習)
エポック数 3エポック
学習率 5 × 10⁻⁶
バッチサイズ 128
GPU構成 単一の 8 × A800 GPUマシン
訓練時間 6時間

【Text-to-Imageタスク】

  • テキストプロンプトとターゲット画像トークンを入力
  • 画像トークンを自己回帰的に予測
  • プロンプトの10%をランダムにマスク
    • → GPT-4oスタイルに近いモデリング
    • → ピクセルレベルの依存関係を学習

【Text-and-Image-to-Imageタスク(画像編集)】

  • 入力画像は画像エンコーダで意味的埋め込みとトークン表現に変換
  • 入力には:
    • プロンプトトークン
    • 画像の意味的特徴(埋め込み)
    • 画像トークン(コードブック)
  • 入力画像の50%をマスキング
    • 過学習の抑制、意味的理解の促進

実験

Janus-4oの性能は、以下の2つの観点から総合的に評価されました。

  1. 自動評価ベンチマーク(定量評価)
  2. 人間評価(主観的品質評価)

両者を組み合わせることで、客観的な指標と実用的な印象の両面からモデルの優劣を検証しています。

  1. 自動評価(Automatic Benchmarks)

    1. Text-to-Image 生成の評価

      ベンチマーク 目的 Janus-4oの結果 改善点
      GenEval テキスト内容に対する構図性・意味的整合性の評価 精度 80% Janus-Proより +4pt
      DPG-Bench テキスト指示への忠実度の評価 スコア 85.71 Janus-Proより +1.6pt

      ShareGPT-4o-Imageにより、詳細な指示への従順性と構成的表現力が大幅に向上しました。

    2. Text-and-Image-to-Image 生成の評価

      ベンチマーク 目的 Janus-4oの結果 特徴的な改善カテゴリ
      ImgEdit-Bench テキスト+画像指示に基づく編集能力の評価 スコア 3.26 Motion Change、Style Transfer

      Janus-4oは、Text-and-Image-to-ImageをサポートしていなかったJanus-Proが新しい能力を獲得しました。

      わずか 91,000の合成サンプルと6時間のトレーニングで、他のベースラインを上回る競争力ある性能を実現しました。

      ShareGPT-4o-Imageの効果が顕著に現れました。

  2. 人間評価(Human Evaluation)

    • 自動指標では測れない主観的品質(美しさ・写実性)と、指示への忠実度を測定。
    • 実使用に近い条件で、人間の目にとって好ましい出力かどうかを評価


    (引用:ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation, Fig5)

    モデル名 説明
    Janus-4o Janus-Pro-7BをShareGPT-4o-Imageでファインチューニングした新モデル。
    Janus-Pro-7B Janus-4oのベースとなるモデル。Text-and-Image-to-Image機能は未実装。
    UltraEdit オープンソースの画像編集モデル。編集タスクの競争相手として選定。



    人間評価でも、学習前のベースモデルや他のモデルと比較して、高い性能を示しました。

    項目 内容
    比較モデル Janus-4o、Janus-Pro-7B、UltraEdit
    使用サンプル数 Text-to-Image:52例、Text-and-Image-to-Image:35例(いずれもTwitter投稿から抽出)
    提示方法 各モデルの出力をランダム順に提示し、バイアスを排除
    評価者 単一の人間評価者(1人)
    評価基準 ① 指示への忠実度 ② 視覚的明瞭度
    評価結果の形式 好ましさの比率(preference ratio):Win / Tie / Lose を報告

結論

  • ShareGPT-4o-ImageによりファインチューニングされたJanus-4oは、

    • Text-to-Imageで明確な性能向上
    • Text-and-Image-to-Imageで新機能獲得と競争力ある結果

    を実現しました。

  • 91,000の少数サンプル8×A800 GPUマシン × 6時間という効率的な訓練条件でこの成果を達成しました。



実際に試してみる

モデルサイズが大きく、通常のノートパソコンだとメモリ不足に陥ることが多いので、Google Colaboratoryで試していきます。実行には、Google Colaboratory Proの契約が必要です。


Google Colaboratory実行ファイル

ShareGPT.ipynb


実行方法

  1. 上のShareGPT.ipynbをダウンロードし、Google Colaboratoryで開く(pro版)
  2. 「ランタイム」→「ランタイムのタイプを変更」→「A100 GPU」→「保存」
  3. 「すべてのセルを実行」
  4. 2回目以降の実行は、最後のセルのみ実行

評価1:簡単な指示をどこまで忠実に守れるか

  1. 猫の画像を、次の3つの条件を振って生成します。
    1. 条件1: 猫の状態
      1. 寝ている
      2. 光っている
      3. 走っている
    2. 条件2: 画角
      1. カメラに近づける
      2. 広角(被写体を遠くに移す)
      3. ローアングル(低い位置から見上げる画角)
    3. 条件3: 描写
      1. 写真風
      2. アニメ風
      3. ゴッホ風
  2. すべての条件の組み合わせ(3×3×3=27パターン)を生成し、3つの条件が忠実に守られているかを主観的に判断していきます。(人間評価)

次の結果から、この程度の簡単な指示であれば、ほぼ完璧に守ることができると言えます。


評価2:複雑な指示に適応できる能力があるか

  1. プロンプト1:複雑な状況と役割
    「古代の、円形図書館。それはまるで天文台のようだ。中央では、白く長い髭をたくわえた賢明な老司書が、好奇心旺盛な子供たちの一団に、光り輝く天球図を見せている。小さな浮遊ロボットが、そびえ立つ書棚にクリスタルでできた本を丁寧に置いている。その光景は、天球図から放たれる温かい光と、巨大なガラスのドーム天井から差し込む星明かりに照らされている。壮大なデジタルペインティング、映画のような照明、超詳細。」

    チェック項目 評価
    天文台のような円形の図書館になっているか? OK
    天井はガラスのドームで、星が見えるか? OK
    白い髭の老司書は存在するか? OK
    好奇心旺盛な子供たちは存在するか? OK
    中央に光る天球図(または天球儀)があるか? NG: 地球儀には見えない
    浮遊するロボットが、クリスタル製の(または透明感のある)本を書棚に置いているか? OK
    天球図と星明かりが主な光源になっているか? NG: 光源に対して全体の光り方が不自然
    壮大で、詳細に描かれた絵画のような雰囲気か? OK
  2. プロンプト2:抽象的・概念的なテーマ
    「『忘れられた記憶の静寂』の視覚的表現。広大で霧深い風景の真ん中にある崩れかけた石のベンチに、半透明の孤独な人影が座っている。かつて活気に満ちていた都市の断片が、空気中の塵のように漂い、ゆっくりと消えていく。唯一の色は、ベンチのひび割れから生える、一本のたくましい野の花からもたらされる。シュルレアリスム、象徴主義的な絵画、物悲しい雰囲気、抑えられた色調。」

    チェック項目 評価
    全体から「静寂」や「物悲しい」雰囲気が感じられるか? OK
    半透明、または透けて見えるような人物が一人だけ描かれているか? NG: 半透明ではない
    霧深く広大な風景の中に、崩れた石のベンチがあるか? OK
    空中に都市の破片のようなものが漂っているか? OK
    全体的に彩度が低いか? OK
    その中で、ベンチに咲いた一輪の花だけが鮮やかな色を持っているか? OK
    シュルレアリスム(非現実的)で、象徴的な絵に見えるか? OK
  3. プロンプト3:矛盾した要素の共存
    「薄明かりの原生林の中、風化した石でできた古代の苔むしたモノリスは、未来的なデータサーバーでもある。石のひび割れには青いネオン回路が光を放ちながら走り、その頂点からはホログラムのデータストリームが霧深い大気へと投影されている。生物発光するホタルが、モノリスの周りを浮遊する小さなデータスプライトと混じり合っている。写実的、SFファンタジーのコンセプトアート、ボリューメトリックライティング。」

    チェック項目 評価
    古びて苔むした「石の柱」と、未来的な「サーバー」の要素が融合しているか? OK
    石の表面やひび割れに、光る回路のような線が描かれているか? OK
    モノリスの上部から、ホログラムのようなデータが投影されているか? OK
    背景は薄暗い(夕暮れや夜明け)の森になっているか? OK
    生物的なホタルの光と、デジタルな光の粒子の両方が周りを飛んでいるか? OK
    全体が写実的(フォトリアル)な質感を持っているか? OK
    光が空気中の霧や塵に反射して、光の筋が見える表現(ボリューメトリックライティング)になっているか? OK



まとめ & 今後の展望

マルチモーダル(テキストと画像)入力の画像生成AIをオープンソースで公開してくれているShareGPT-4o-ImageJanus-4oについて解説しました。

これまで公開されていなかった技術がオープンになることで、画像生成AIの分野が今後さらに研究が進んでいくと期待されます。

本記事ではテキストから画像を生成する能力を試してみました。短文のプロンプトはほぼ正確に表現することができる能力があり、さらに難しい文章による画像生成も大方表現することができていました。しかし現段階では、複雑な文章になると細部のどこかに指示に従えていない内容も生じてしまうみたいです。

この精度のモデルやデータセットがオープンソースであることが衝撃です。画像生成AIを導入・応用する企業が増えていくのではないでしょうか。さらに画像以外の分野でも同様の手法で民主化が進めばより一層AIが社会に浸透していきますね。



参考文献

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation(2025)

GitHub: ShareGPT-4o-Image

UPGRADE tech blog

Discussion