🎨

SD1.5 dreamshaper vs realcartoon3d、50 プロンプト × 10 seed で比較した

に公開

動機

Stable Diffusion 1.5 系のモデルは Civitai 上に数百本あり、ランキング上位だけでも 30-50 本選択肢があります。**「結局どれを使えばいいの?」**は、毎月誰かが SNS で聞いている万年トピック。

回答として返ってくるのは「自分が好きなのを使え」「自分の作風に合うのを試せ」というのが多い。正論なんですが、**「試す = 5 モデル × 何枚もプロンプト変えて手で出す」**は時間がかかる。1 モデル 10 prompt × 5 seed でも 50 枚、5 モデルなら 250 枚。WebUI で手動で出していたら半日仕事。

そこで本検証では、商用利用可能な SD1.5 系 2 モデル(dreamshaper_8 / realcartoon3d_v18)について、ジャンル多様 50 プロンプト × 共通 10 seed = 1,000 枚を一気に生成して、モデル特性を可視化しました。

なぜ 5 モデルじゃなく 2 モデル?

正直に書くと、当初は 5 モデル(SDXL 2 本 + SD1.5 3 本)で計画していました。

しかし RTX 5060(8GB VRAM)で SDXL を 768×768 で回すと、CPU offload による disk swap で 1 画像 17-41 分かかることが実測で判明。2,500 枚なら 10 日以上 GPU を占有する計算で、現実的でない。

SD1.5 2 モデルに絞って 1,000 枚で実施しました(2 時間で完走)。SDXL 比較は GPU 環境を更新してから別途検討します。

このタイプの「設計より小さい結果になった原因と判断過程」は、自己実験の中で頻繁に起きるやつなので、検証記事として残す価値があると思っています。

検証セットアップ

項目
モデル A dreamshaper_8(Lykon、汎用)
モデル B realcartoon3d_v18(RCNZ、カートゥーン/3D 寄り)
VAE CleanVAE(共通)
Sampler DPM++ 2M Karras / CFG 7.5 / Steps 25 / 512×512
seed baseline rank 1-10 の 10 個(両モデル共通)
プロンプト 50 個(ジャンル多様: キャラ12/風景10/物体8/抽象5/スタイル指定8/エッジケース7)

prompt と seed 以外はすべて同じ」を厳守。これで「モデルが違うとどう変わるか」を isolate できます。

結果1: 平均 aesthetic スコアはほぼ同等

LAION aesthetic predictor v2(CLIP ViT-L/14 ベース、0–10 スケール)で 1,000 枚を全件スコアリングしました:

モデル mean min max
dreamshaper_8 6.99 4.43 8.98
realcartoon3d_v18 7.12 4.05 8.66

平均は realcartoon3d がわずかに上(+0.13)。ところが 最高画(max)は dreamshaper の方が高い(8.98 vs 8.66)。

これが何を意味するか:

  • dreamshaper: アタリ画(top score)はピークが高い。**「ベスト 1 枚」**を狙う用途に向く
  • realcartoon3d: 平均が高い = どの prompt でも安定して見映えする。**「ハズレが少ない」**用途に向く

「Photoshop で 1 枚仕上げる素材を出したい」なら dreamshaper、「サムネ用に 50 枚一気に出して全部まあまあに仕上げたい」なら realcartoon3d、という整理です。

結果2: ジャンル別の得意・不得意

メイングリッド画像でジャンル別に並べて見たときの観察:

キャラ系(prompt 0-11)

  • dreamshaper: 平面アニメ寄りの仕上がり、目鼻のディテール安定
  • realcartoon3d: 立体感の強い 3D キャラ、実写寄りに振れがち

風景系(prompt 12-21)

  • dreamshaper: 写実 + アート的、ホラー寄りの雰囲気が出やすい
  • realcartoon3d: 絵本のような立体感、明るい配色寄り

抽象・パターン系(prompt 31-35)

  • dreamshaper: 構造を保ちつつ流動的な表現
  • realcartoon3d: パターン化が崩れやすい(苦手分野)

スタイル指定系(prompt 36-43)

  • dreamshaper: 「van Gogh」「ukiyo-e」等のスタイル指定に素直に反応
  • realcartoon3d: スタイル指定が弱く、独自の方向に流れがち

エッジケース(prompt 44-49)

  • 「complex hand close-up」「multi-character」など、両モデルとも破綻が出やすい題材
  • ここで両モデルの「弱さ」が同程度に露呈する

→ つまり「スタイル指定系・抽象系では dreamshaper、風景系・物体系では realcartoon3d」が大雑把な棲み分け。

厳選 100 枚のモデル比

aesthetic 上位 400 → CLIP 特徴の k-means k=100 で「視覚的に多様」になるよう厳選した 100 枚の内訳:

  • dreamshaper_8: 48 枚
  • realcartoon3d_v18: 52 枚

ほぼ拮抗(48:52)。視覚多様性で選定するとモデル偏りが生まれない、というのは興味深い結果です。「総合力で見れば同等、特性が違うだけ」という結論を補強します。

何が言えるか(実用的な判断材料)

  • 平均的に綺麗を狙うなら: realcartoon3d_v18(平均が高く、ハズレが少ない)
  • 最高画を狙うなら: dreamshaper_8(top が高く、スタイル指定に素直)
  • キャラ中心の作品なら: dreamshaper(目鼻安定)
  • 風景・物体中心なら: realcartoon3d(立体感の出る描写)
  • どちらか迷うなら、まず 10-20 prompt で試してから決める(本データセットがそれを 1,000 枚で代替)

取れる次の検証

  • 同じ 50 prompt で SDXL 2 本(animagineXL / juggernautXL)を比較する別商品(GPU 環境更新後)
  • 同じ 2 モデルで CFG / Sampler を変えた場合にこの優劣が逆転するか
  • 同じ 2 モデルで negative を変えた場合(P5 商品と組合せて cross-axis 分析)

データセット公開

本検証の 全 1,000 画像 + 厳選 100 枚 + メイングリッド 5 枚(ジャンル別)+ CSV 一式 + 詳細な解説 README は、Booth で販売しています:

📦 SD1.5 モデル比較データセット — dreamshaper × realcartoon3d 50プロンプト

価格 800 円で、以下を同梱:

  • 全 1,000 画像(2 モデル × 50 prompt × 10 seed)
  • 厳選 100 枚(モデル比 48:52 で偏りなし)
  • ジャンル別メイングリッド 5 枚 + ハイライトグリッド 4 枚
  • metadata.csv / aesthetic_scores.csv / p1_highlights.csv
  • 全 50 プロンプト + 再現スクリプト用設定

自分で 1,000 枚出すのは時間がない」「ジャンル別の特性差を一望したい」方の 数日分の自己実験を圧縮 する用途に。

まとめ

  • SD1.5 系 dreamshaper_8 と realcartoon3d_v18 を 50 prompt × 10 seed で網羅比較
  • 平均 aesthetic はほぼ同等(7.0)、最高画は dreamshaper、平均安定は realcartoon3d
  • ジャンル別では キャラ・スタイル指定は dreamshaper、風景・物体は realcartoon3d
  • SDXL を含めた拡張版は GPU 環境更新後の別商品で予定

「どちらを使うか迷っている」方は、本記事と Booth ページで判断材料を増やしてみてください。


MetAIra(Zenn: @MetAIra / X: @MetAIra_jp)
SD 検証データセットを定期的に作っています。Sampler × CFG 挙動マップ(P2)や Negative Prompt 検証ノート(P5)とセットで購入すると、4 軸(Sampler / CFG / Negative / Model)が揃います。

Discussion