SD1.5 dreamshaper vs realcartoon3d、50 プロンプト × 10 seed で比較した
動機
Stable Diffusion 1.5 系のモデルは Civitai 上に数百本あり、ランキング上位だけでも 30-50 本選択肢があります。**「結局どれを使えばいいの?」**は、毎月誰かが SNS で聞いている万年トピック。
回答として返ってくるのは「自分が好きなのを使え」「自分の作風に合うのを試せ」というのが多い。正論なんですが、**「試す = 5 モデル × 何枚もプロンプト変えて手で出す」**は時間がかかる。1 モデル 10 prompt × 5 seed でも 50 枚、5 モデルなら 250 枚。WebUI で手動で出していたら半日仕事。
そこで本検証では、商用利用可能な SD1.5 系 2 モデル(dreamshaper_8 / realcartoon3d_v18)について、ジャンル多様 50 プロンプト × 共通 10 seed = 1,000 枚を一気に生成して、モデル特性を可視化しました。
なぜ 5 モデルじゃなく 2 モデル?
正直に書くと、当初は 5 モデル(SDXL 2 本 + SD1.5 3 本)で計画していました。
しかし RTX 5060(8GB VRAM)で SDXL を 768×768 で回すと、CPU offload による disk swap で 1 画像 17-41 分かかることが実測で判明。2,500 枚なら 10 日以上 GPU を占有する計算で、現実的でない。
→ SD1.5 2 モデルに絞って 1,000 枚で実施しました(2 時間で完走)。SDXL 比較は GPU 環境を更新してから別途検討します。
このタイプの「設計より小さい結果になった原因と判断過程」は、自己実験の中で頻繁に起きるやつなので、検証記事として残す価値があると思っています。
検証セットアップ
| 項目 | 値 |
|---|---|
| モデル A | dreamshaper_8(Lykon、汎用) |
| モデル B | realcartoon3d_v18(RCNZ、カートゥーン/3D 寄り) |
| VAE | CleanVAE(共通) |
| Sampler | DPM++ 2M Karras / CFG 7.5 / Steps 25 / 512×512 |
| seed | baseline rank 1-10 の 10 個(両モデル共通) |
| プロンプト | 50 個(ジャンル多様: キャラ12/風景10/物体8/抽象5/スタイル指定8/エッジケース7) |
「prompt と seed 以外はすべて同じ」を厳守。これで「モデルが違うとどう変わるか」を isolate できます。
結果1: 平均 aesthetic スコアはほぼ同等
LAION aesthetic predictor v2(CLIP ViT-L/14 ベース、0–10 スケール)で 1,000 枚を全件スコアリングしました:
| モデル | mean | min | max |
|---|---|---|---|
| dreamshaper_8 | 6.99 | 4.43 | 8.98 |
| realcartoon3d_v18 | 7.12 | 4.05 | 8.66 |
平均は realcartoon3d がわずかに上(+0.13)。ところが 最高画(max)は dreamshaper の方が高い(8.98 vs 8.66)。
これが何を意味するか:
- dreamshaper: アタリ画(top score)はピークが高い。**「ベスト 1 枚」**を狙う用途に向く
- realcartoon3d: 平均が高い = どの prompt でも安定して見映えする。**「ハズレが少ない」**用途に向く
「Photoshop で 1 枚仕上げる素材を出したい」なら dreamshaper、「サムネ用に 50 枚一気に出して全部まあまあに仕上げたい」なら realcartoon3d、という整理です。
結果2: ジャンル別の得意・不得意
メイングリッド画像でジャンル別に並べて見たときの観察:
キャラ系(prompt 0-11)
- dreamshaper: 平面アニメ寄りの仕上がり、目鼻のディテール安定
- realcartoon3d: 立体感の強い 3D キャラ、実写寄りに振れがち
風景系(prompt 12-21)
- dreamshaper: 写実 + アート的、ホラー寄りの雰囲気が出やすい
- realcartoon3d: 絵本のような立体感、明るい配色寄り
抽象・パターン系(prompt 31-35)
- dreamshaper: 構造を保ちつつ流動的な表現
- realcartoon3d: パターン化が崩れやすい(苦手分野)
スタイル指定系(prompt 36-43)
- dreamshaper: 「van Gogh」「ukiyo-e」等のスタイル指定に素直に反応
- realcartoon3d: スタイル指定が弱く、独自の方向に流れがち
エッジケース(prompt 44-49)
- 「complex hand close-up」「multi-character」など、両モデルとも破綻が出やすい題材
- ここで両モデルの「弱さ」が同程度に露呈する
→ つまり「スタイル指定系・抽象系では dreamshaper、風景系・物体系では realcartoon3d」が大雑把な棲み分け。
厳選 100 枚のモデル比
aesthetic 上位 400 → CLIP 特徴の k-means k=100 で「視覚的に多様」になるよう厳選した 100 枚の内訳:
- dreamshaper_8: 48 枚
- realcartoon3d_v18: 52 枚
ほぼ拮抗(48:52)。視覚多様性で選定するとモデル偏りが生まれない、というのは興味深い結果です。「総合力で見れば同等、特性が違うだけ」という結論を補強します。
何が言えるか(実用的な判断材料)
- 平均的に綺麗を狙うなら: realcartoon3d_v18(平均が高く、ハズレが少ない)
- 最高画を狙うなら: dreamshaper_8(top が高く、スタイル指定に素直)
- キャラ中心の作品なら: dreamshaper(目鼻安定)
- 風景・物体中心なら: realcartoon3d(立体感の出る描写)
- どちらか迷うなら、まず 10-20 prompt で試してから決める(本データセットがそれを 1,000 枚で代替)
取れる次の検証
- 同じ 50 prompt で SDXL 2 本(animagineXL / juggernautXL)を比較する別商品(GPU 環境更新後)
- 同じ 2 モデルで CFG / Sampler を変えた場合にこの優劣が逆転するか
- 同じ 2 モデルで negative を変えた場合(P5 商品と組合せて cross-axis 分析)
データセット公開
本検証の 全 1,000 画像 + 厳選 100 枚 + メイングリッド 5 枚(ジャンル別)+ CSV 一式 + 詳細な解説 README は、Booth で販売しています:
📦 SD1.5 モデル比較データセット — dreamshaper × realcartoon3d 50プロンプト
価格 800 円で、以下を同梱:
- 全 1,000 画像(2 モデル × 50 prompt × 10 seed)
- 厳選 100 枚(モデル比 48:52 で偏りなし)
- ジャンル別メイングリッド 5 枚 + ハイライトグリッド 4 枚
- metadata.csv / aesthetic_scores.csv / p1_highlights.csv
- 全 50 プロンプト + 再現スクリプト用設定
「自分で 1,000 枚出すのは時間がない」「ジャンル別の特性差を一望したい」方の 数日分の自己実験を圧縮 する用途に。
まとめ
- SD1.5 系 dreamshaper_8 と realcartoon3d_v18 を 50 prompt × 10 seed で網羅比較
- 平均 aesthetic はほぼ同等(7.0)、最高画は dreamshaper、平均安定は realcartoon3d
- ジャンル別では キャラ・スタイル指定は dreamshaper、風景・物体は realcartoon3d
- SDXL を含めた拡張版は GPU 環境更新後の別商品で予定
「どちらを使うか迷っている」方は、本記事と Booth ページで判断材料を増やしてみてください。
MetAIra(Zenn: @MetAIra / X: @MetAIra_jp)
SD 検証データセットを定期的に作っています。Sampler × CFG 挙動マップ(P2)や Negative Prompt 検証ノート(P5)とセットで購入すると、4 軸(Sampler / CFG / Negative / Model)が揃います。
Discussion