🤖

【実践解説】オンプレミスで動く最新画像生成AIモデル「Janus-4o」と高精度データセット「ShareGPT-4o-Image」

aoto

2025/07/29に公開

 この記事の概要2025年6月22日に出版された最新の「ShareGPT-4o-Image」と「Janus-4o」について解説します。
GPT-4o-Imageのような先進的な画像生成AIモデルへは一般的にアクセスすることができません。このような技術を民主化するために、新しい効果的な画像データセットが ShareGPT-4o-Imageで、このデータセットを使って学習された画像生成AIが Janus-4o です。つまり高精度の画像生成モデルをオンプレミスで動かすことができるようになったのです。
モデルが公開されているので、本記事では実際に使ってみて、この最新のオープン技術を確かめていきます。



 対象読者Janus-4oをGoogle Colaboratoryで試してみたい方
AIの最新動向を追いたい方
画像生成AIを開発・利用する研究者または開発者
ShareGPTの論文を日本語でキャッチアップしたい方
ShareGPTを使って学習された生成AIの性能を視覚的に確認したい方



 論文紹介：ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation（2025）
 概要GPT-4o-Imageは高性能な画像生成能力を持つが、独占的で非公開。
これに対処するため、研究チームはShareGPT-4o-Imageという合成データセット（4.5万のテキスト-画像、4.6万のテキスト-画像-画像データ）を構築。
このデータセットを用いて、Janus-Proをファインチューニングし、Janus-4oを開発。
Janus-4oは新たにテキスト-画像-画像生成をサポートし、8基のA800 GPUを用いた6時間のトレーニングで高性能を達成。
研究の意義：画像生成の民主化とオープン研究の促進。
Janus-Pro (ヤヌス・プロ)

テキストと画像を同時に扱うことができるマルチモーダル大規模言語モデルの一つです。このモデルは、テキストの指示（プロンプト）を理解するだけでなく、画像の内容も理解し、それらを関連付けた応答を生成する能力を持っています。
A800 GPU

NVIDIA社が開発したGPUです。Janus-4oの開発ではこのA800 GPUが8基使用されています。このGPUは大規模のAIモデルの学習や推論に利用され、通常のコンピューターでは数ヶ月かかるような計算を、数時間から数日で終えることができます。

 論文の主張オープンソースの高性能な画像データセットとマルチモーダル（画像+テキスト）の画像生成AIモデルを開発したこと。

Janus-4oのファインチューニングに8機のA800 GPUを用いて、たった6時間で学習できたこと。

 画像データセットの作成方法

（引用：ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation, Fig3）




次の方法で作成されました。
（画像, テキスト）ペア（45,000個のデータ）：Text-To-Imageデータセット
プロンプトファースト
属性空間（オブジェクト・背景・スタイルなど6次元）を組み合わせてプロンプトをGemini-Pro-2.5で生成。
GPT-4o-Imageで画像を生成。
イメージファースト

ALLaVAデータセットから、現実世界に存在する多様で高品質な画像を取得。
各画像に対して、Gemini-Pro-2.5がその視覚的なコンテンツを正確に反映する詳細で記述的なテキストプロンプトを生成。
生成されたプロンプトと元の画像をペアとする。
このアプローチによって、データセットのテキスト分布が、自然に発生するシーンを記述するために必要な言語も捉えられるようにすることが保証されます。
（画像, 編集指示, 編集された画像）ペア（46,000個のデータ）：Text-and-Image-To-Imageデータセット
このデータセットは、指示に対して画像を編集能力を獲得することを目的に作成されました。
ソース画像の選択
新たにGPT-4o-Imageで生成された画像またはALLaVAデータセットから取得。
編集タスクのサンプリング
予め定義された14種類の画像編集タスクから、1つの編集タスクが決定。
自然言語による編集指示の作成
Gemini-Pro-2.5がソース画像と編集タスクに応じて、編集指示を生成。
編集された画像の生成
ソース画像と編集指示から、GPT-4o-Imageで編集された画像生成。
ソース画像、編集指示、編集された画像をペアとする。



上記の3つの方法で作成された合計91,000個のデータセットが「Share-GPT-4o-Image」として公開されました。

 ファインチューニング：Janus-Pro → Janus-4o

項目
内容


ベースモデル
Janus-Pro-7B

出力モデル
Janus-4o

使用データ
ShareGPT-4o-Image（Text-to-Image: 45K + Text-and-Image-to-Image: 46K）

学習タスク
① Text-to-Image ② Text-and-Image-to-Image（両タスクを同時に学習）

エポック数
3エポック

学習率
5 × 10⁻⁶

バッチサイズ
128

GPU構成
単一の 8 × A800 GPUマシン

訓練時間
6時間

【Text-to-Imageタスク】
テキストプロンプトとターゲット画像トークンを入力
画像トークンを自己回帰的に予測
プロンプトの10%をランダムにマスク
→ GPT-4oスタイルに近いモデリング
→ ピクセルレベルの依存関係を学習

【Text-and-Image-to-Imageタスク（画像編集）】
入力画像は画像エンコーダで意味的埋め込みとトークン表現に変換
入力には：
プロンプトトークン
画像の意味的特徴（埋め込み）
画像トークン（コードブック）

入力画像の50%をマスキング
過学習の抑制、意味的理解の促進


 実験Janus-4oの性能は、以下の2つの観点から総合的に評価されました。
自動評価ベンチマーク（定量評価）
人間評価（主観的品質評価）
両者を組み合わせることで、客観的な指標と実用的な印象の両面からモデルの優劣を検証しています。
自動評価（Automatic Benchmarks）
Text-to-Image 生成の評価


ベンチマーク
目的
Janus-4oの結果
改善点


GenEval
テキスト内容に対する構図性・意味的整合性の評価
精度 80%
Janus-Proより +4pt

DPG-Bench
テキスト指示への忠実度の評価
スコア 85.71
Janus-Proより +1.6pt

ShareGPT-4o-Imageにより、詳細な指示への従順性と構成的表現力が大幅に向上しました。
Text-and-Image-to-Image 生成の評価


ベンチマーク
目的
Janus-4oの結果
特徴的な改善カテゴリ


ImgEdit-Bench
テキスト+画像指示に基づく編集能力の評価
スコア 3.26
Motion Change、Style Transfer

Janus-4oは、Text-and-Image-to-ImageをサポートしていなかったJanus-Proが新しい能力を獲得しました。
わずか 91,000の合成サンプルと6時間のトレーニングで、他のベースラインを上回る競争力ある性能を実現しました。
ShareGPT-4o-Imageの効果が顕著に現れました。
人間評価（Human Evaluation）

自動指標では測れない主観的品質（美しさ・写実性）と、指示への忠実度を測定。
実使用に近い条件で、人間の目にとって好ましい出力かどうかを評価。


（引用：ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation, Fig5）




モデル名
説明


Janus-4o
Janus-Pro-7BをShareGPT-4o-Imageでファインチューニングした新モデル。

Janus-Pro-7B
Janus-4oのベースとなるモデル。Text-and-Image-to-Image機能は未実装。

UltraEdit
オープンソースの画像編集モデル。編集タスクの競争相手として選定。




人間評価でも、学習前のベースモデルや他のモデルと比較して、高い性能を示しました。


項目
内容


比較モデル
Janus-4o、Janus-Pro-7B、UltraEdit

使用サンプル数
Text-to-Image：52例、Text-and-Image-to-Image：35例（いずれもTwitter投稿から抽出）

提示方法
各モデルの出力をランダム順に提示し、バイアスを排除


評価者
単一の人間評価者（1人）

評価基準
① 指示への忠実度 ② 視覚的明瞭度

評価結果の形式
好ましさの比率（preference ratio）：Win / Tie / Lose を報告


 結論ShareGPT-4o-ImageによりファインチューニングされたJanus-4oは、
Text-to-Imageで明確な性能向上
Text-and-Image-to-Imageで新機能獲得と競争力ある結果
を実現しました。
91,000の少数サンプルと8×A800 GPUマシン × 6時間という効率的な訓練条件でこの成果を達成しました。



 実際に試してみるモデルサイズが大きく、通常のノートパソコンだとメモリ不足に陥ることが多いので、Google Colaboratoryで試していきます。実行には、Google Colaboratory Proの契約が必要です。

 Google Colaboratory実行ファイルShareGPT.ipynb

 実行方法上のShareGPT.ipynbをダウンロードし、Google Colaboratoryで開く（pro版）
「ランタイム」→「ランタイムのタイプを変更」→「A100 GPU」→「保存」
「すべてのセルを実行」
2回目以降の実行は、最後のセルのみ実行

 評価1：簡単な指示をどこまで忠実に守れるか猫の画像を、次の3つの条件を振って生成します。

条件1: 猫の状態
寝ている
光っている
走っている


条件2: 画角
カメラに近づける
広角（被写体を遠くに移す）
ローアングル（低い位置から見上げる画角）


条件3: 描写
写真風
アニメ風
ゴッホ風


すべての条件の組み合わせ（3×3×3=27パターン）を生成し、3つの条件が忠実に守られているかを主観的に判断していきます。（人間評価）
次の結果から、この程度の簡単な指示であれば、ほぼ完璧に守ることができると言えます。


 評価2：複雑な指示に適応できる能力があるかプロンプト1：複雑な状況と役割

「古代の、円形図書館。それはまるで天文台のようだ。中央では、白く長い髭をたくわえた賢明な老司書が、好奇心旺盛な子供たちの一団に、光り輝く天球図を見せている。小さな浮遊ロボットが、そびえ立つ書棚にクリスタルでできた本を丁寧に置いている。その光景は、天球図から放たれる温かい光と、巨大なガラスのドーム天井から差し込む星明かりに照らされている。壮大なデジタルペインティング、映画のような照明、超詳細。」



チェック項目
評価


天文台のような円形の図書館になっているか？
OK

天井はガラスのドームで、星が見えるか？
OK

白い髭の老司書は存在するか？
OK

好奇心旺盛な子供たちは存在するか？
OK

中央に光る天球図（または天球儀）があるか？
NG: 地球儀には見えない

浮遊するロボットが、クリスタル製の（または透明感のある）本を書棚に置いているか？
OK

天球図と星明かりが主な光源になっているか？
NG: 光源に対して全体の光り方が不自然

壮大で、詳細に描かれた絵画のような雰囲気か？
OK

プロンプト2：抽象的・概念的なテーマ

「『忘れられた記憶の静寂』の視覚的表現。広大で霧深い風景の真ん中にある崩れかけた石のベンチに、半透明の孤独な人影が座っている。かつて活気に満ちていた都市の断片が、空気中の塵のように漂い、ゆっくりと消えていく。唯一の色は、ベンチのひび割れから生える、一本のたくましい野の花からもたらされる。シュルレアリスム、象徴主義的な絵画、物悲しい雰囲気、抑えられた色調。」



チェック項目
評価


全体から「静寂」や「物悲しい」雰囲気が感じられるか？
OK

半透明、または透けて見えるような人物が一人だけ描かれているか？
NG: 半透明ではない

霧深く広大な風景の中に、崩れた石のベンチがあるか？
OK

空中に都市の破片のようなものが漂っているか？
OK

全体的に彩度が低いか？
OK

その中で、ベンチに咲いた一輪の花だけが鮮やかな色を持っているか？
OK

シュルレアリスム（非現実的）で、象徴的な絵に見えるか？
OK

プロンプト3：矛盾した要素の共存

「薄明かりの原生林の中、風化した石でできた古代の苔むしたモノリスは、未来的なデータサーバーでもある。石のひび割れには青いネオン回路が光を放ちながら走り、その頂点からはホログラムのデータストリームが霧深い大気へと投影されている。生物発光するホタルが、モノリスの周りを浮遊する小さなデータスプライトと混じり合っている。写実的、SFファンタジーのコンセプトアート、ボリューメトリックライティング。」



チェック項目
評価


古びて苔むした「石の柱」と、未来的な「サーバー」の要素が融合しているか？
OK

石の表面やひび割れに、光る回路のような線が描かれているか？
OK

モノリスの上部から、ホログラムのようなデータが投影されているか？
OK

背景は薄暗い（夕暮れや夜明け）の森になっているか？
OK

生物的なホタルの光と、デジタルな光の粒子の両方が周りを飛んでいるか？
OK

全体が写実的（フォトリアル）な質感を持っているか？
OK

光が空気中の霧や塵に反射して、光の筋が見える表現（ボリューメトリックライティング）になっているか？
OK




 まとめ & 今後の展望マルチモーダル（テキストと画像）入力の画像生成AIをオープンソースで公開してくれているShareGPT-4o-ImageとJanus-4oについて解説しました。
これまで公開されていなかった技術がオープンになることで、画像生成AIの分野が今後さらに研究が進んでいくと期待されます。
本記事ではテキストから画像を生成する能力を試してみました。短文のプロンプトはほぼ正確に表現することができる能力があり、さらに難しい文章による画像生成も大方表現することができていました。しかし現段階では、複雑な文章になると細部のどこかに指示に従えていない内容も生じてしまうみたいです。
この精度のモデルやデータセットがオープンソースであることが衝撃です。画像生成AIを導入・応用する企業が増えていくのではないでしょうか。さらに画像以外の分野でも同様の手法で民主化が進めばより一層AIが社会に浸透していきますね。



 参考文献ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation（2025）
GitHub: ShareGPT-4o-Image

項目	内容
ベースモデル	Janus-Pro-7B
出力モデル	Janus-4o
使用データ	ShareGPT-4o-Image（Text-to-Image: 45K + Text-and-Image-to-Image: 46K）
学習タスク	① Text-to-Image ② Text-and-Image-to-Image（両タスクを同時に学習）
エポック数	3エポック
学習率	5 × 10⁻⁶
バッチサイズ	128
GPU構成	単一の 8 × A800 GPUマシン
訓練時間	6時間

ベンチマーク	目的	Janus-4oの結果	改善点
GenEval	テキスト内容に対する構図性・意味的整合性の評価	精度 80%	Janus-Proより +4pt
DPG-Bench	テキスト指示への忠実度の評価	スコア 85.71	Janus-Proより +1.6pt

ベンチマーク	目的	Janus-4oの結果	特徴的な改善カテゴリ
ImgEdit-Bench	テキスト+画像指示に基づく編集能力の評価	スコア 3.26	Motion Change、Style Transfer

モデル名	説明
Janus-4o	Janus-Pro-7BをShareGPT-4o-Imageでファインチューニングした新モデル。
Janus-Pro-7B	Janus-4oのベースとなるモデル。Text-and-Image-to-Image機能は未実装。
UltraEdit	オープンソースの画像編集モデル。編集タスクの競争相手として選定。

項目	内容
比較モデル	Janus-4o、Janus-Pro-7B、UltraEdit
使用サンプル数	Text-to-Image：52例、Text-and-Image-to-Image：35例（いずれもTwitter投稿から抽出）
提示方法	各モデルの出力をランダム順に提示し、バイアスを排除
評価者	単一の人間評価者（1人）
評価基準	① 指示への忠実度 ② 視覚的明瞭度
評価結果の形式	好ましさの比率（preference ratio）：Win / Tie / Lose を報告

チェック項目	評価
天文台のような円形の図書館になっているか？	OK
天井はガラスのドームで、星が見えるか？	OK
白い髭の老司書は存在するか？	OK
好奇心旺盛な子供たちは存在するか？	OK
中央に光る天球図（または天球儀）があるか？	NG: 地球儀には見えない
浮遊するロボットが、クリスタル製の（または透明感のある）本を書棚に置いているか？	OK
天球図と星明かりが主な光源になっているか？	NG: 光源に対して全体の光り方が不自然
壮大で、詳細に描かれた絵画のような雰囲気か？	OK

チェック項目	評価
全体から「静寂」や「物悲しい」雰囲気が感じられるか？	OK
半透明、または透けて見えるような人物が一人だけ描かれているか？	NG: 半透明ではない
霧深く広大な風景の中に、崩れた石のベンチがあるか？	OK
空中に都市の破片のようなものが漂っているか？	OK
全体的に彩度が低いか？	OK
その中で、ベンチに咲いた一輪の花だけが鮮やかな色を持っているか？	OK
シュルレアリスム（非現実的）で、象徴的な絵に見えるか？	OK

チェック項目	評価
古びて苔むした「石の柱」と、未来的な「サーバー」の要素が融合しているか？	OK
石の表面やひび割れに、光る回路のような線が描かれているか？	OK
モノリスの上部から、ホログラムのようなデータが投影されているか？	OK
背景は薄暗い（夕暮れや夜明け）の森になっているか？	OK
生物的なホタルの光と、デジタルな光の粒子の両方が周りを飛んでいるか？	OK
全体が写実的（フォトリアル）な質感を持っているか？	OK
光が空気中の霧や塵に反射して、光の筋が見える表現（ボリューメトリックライティング）になっているか？	OK

UPGRADE tech blogPublication

株式会社アップグレードは、エンタープライズ企業の生成AI活用における戦略立案から実装までを一貫して支援する専門企業です。本ブログでは、AI Workflow設計、AI Agent開発、RAGシステム構築、各種LLMの実践的活用手法など、技術的知見を共有します。| Dify公式パートナー

この記事の概要

対象読者

論文紹介：ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation（2025）

概要

論文の主張

画像データセットの作成方法

ファインチューニング：Janus-Pro → Janus-4o

実験

結論

実際に試してみる

Google Colaboratory実行ファイル

実行方法

評価1：簡単な指示をどこまで忠実に守れるか

評価2：複雑な指示に適応できる能力があるか

まとめ & 今後の展望

参考文献

Discussion