最強画像生成AI徹底比較RecraftV3 vs Imagen3
目次
- はじめに
- 新しいImagen3
- RecraftV3 vs Imagen3 比較
- 基本性能
- つよつよポイント(RecraftV3)
3. つよつよポイント(Imagen3)
4. 手
5. 日本の理解度
6. 弱点
7. 著作権ガード
8. まとめ
- おまけ~Imaen3のおすすめの遊び方~
- 終わり
1. はじめに
今回は「最強画像生成AI」をテーマに、既存の最高精度モデル「Recraft V3」と、先日アップデートされた Google の新バージョン「Imagen3」を徹底比較してみます。
最後には、Imagen3 ならではのユニークな遊び方もご紹介しているので、ぜひ最後までお楽しみください。
この比較を通じて、両者の強みや弱みを把握し、自分の用途に応じて最適なモデルを使い分けられるようになるのが本記事の狙いです。まずは、Google が発表したばかりの「Imagen3」の概要から見ていきましょう。
2. 新しいImagen3
Googleが提供する画像生成AI「Imagen3」は、2023年12月にアップデートが行われ、大幅に性能が向上したモデルです。ベンチマークの結果でも「Recraft V3」を上回る精度が出ているとのことで、実際に使ってみるとかなりの実力を発揮しているようです。
ただし、画像生成AIのベンチマークは定量的な指標をとりづらい分野でもあります。数学の問題のように「正解・不正解」が明確に決まらず、生成された画像の「良い・悪い」は主観的な評価に依る部分が大きいからです。
そのため、Imagen3の性能を評価する際には以下のような方法が用いられています。
- 同じプロンプトで複数のモデルを比較し、人間の目でどちらが良いかを投票する方法
- 単体のモデルが出力した画像に対して、「提示したプロンプトどおりに正しく描写できているか」を確認する方法
いずれの評価方法でも「Recraft V3」と拮抗する結果が出ていますが、Imagen3の方がわずかに上回るケースが多いようです。ただし、決定的な大差があるわけではなく、「Imagen3が約50%強で勝ち越している」という程度の傾向になっています。
3. RecraftV3 vs Imagen3 比較
ここからは、RecraftV3 と Imagen3 を比較してみます。先ほど触れたように、Googleの Imagen3(※ここではアップデート後の “Imagen3 v2”)は、最近のベンチマークで「RecraftV3 を上回る」とアピールしており、「本当なのか?」と話題を集めています。
実際に両者を使い比べてみると、どちらも優秀 ではあるものの、全面的に「Imagen3 が常に上」というわけでもありません。生成される画像の雰囲気や仕上がり具合には違いがあり、いわゆる「いい点・悪い点」がそれぞれ存在しています。
そこで、本記事では以下の視点で両モデルを比較しつつ、どういった場面でどちらを使うのがよいのか、ポイントを整理してみたいと思います。結論としては、RecraftV3 も Imagen3 も 使いどころ次第 で強みを発揮する場面が異なる印象です。この記事を通してどのようなケースだとどちらのモデルを使えばいいか判断できるようになるかと思います。
3.1. 基本性能
Recraft V3 と Imagen 3 の基本的な性能については、どちらも高い水準にあるようです。たとえば人のポートレートなどを描かせた場合、どちらも大きな破綻はなく、自然な雰囲気で作成できます。そのため「どちらが圧倒的に優れている」というよりは、条件次第でどちらも十分に使える印象です。
具体的には、たとえば日本人のグループ写真を想定した生成を行った場合でも、両モデルとも大まかな見た目の整合性は取れているようです。基本的な性能レベルとしては十分に高いと考えられます。
3.2. つよつよポイント(RecraftV3)
RecraftV3 のいちばんの強みは、あらかじめ用意されている「スタイル」が豊富な点です。以前から機能として存在していましたが、最近ではパターンやロゴにも対応するなど、スタイルの数は常に増え続けています。指定したスタイルに合わせて画像を生成できるため、イメージどおりの結果が得やすく、打率がかなり高いと感じられます。
たとえば、同じプロンプトでもスタイルを変えるだけで、まったく異なる雰囲気や見た目の画像が得られます。それぞれのスタイルが持つ“らしさ”がしっかり表現されるので、決め打ちで指定するだけでも、かなりいい感じの仕上がりになるのが特徴です。こうしたスタイルの豊富さと扱いやすさは、RecraftV3 ならではの“うま味”だと言えるでしょう。
3.3. つよつよポイント(Imagen3)
Imagen3の大きな強みのひとつとして、「複雑なシーンやディテールを細かく描ける」という点が挙げられます。たとえば、たくさんの人がいる風景や、ごちゃごちゃした場面を指示しても、全体のスケール感をしっかり表現しつつ、個々のパーツも破綻なく描き込みやすい傾向があります。
具体的な例として、「観客全員が高齢者のロックフェス風景」のような、実在するかはともかく一見ありえないシチュエーションを指定しても、Imagen3は広い会場の様子をしっかりと映し出し、それぞれの人物にも白髪やしわなどの特徴がリアルに盛り込まれやすいようです。背景の大きなスケールを描写するときも、人物ひとりひとりをそれなりに整合性のある状態で仕上げてくれるため、複雑さをともなう場面が必要なときに力を発揮するといわれています。
ちなみにRecraftで同じプロンプトで画像を作ってみると、小規模な会場の画像が生成され、指示にうまく従ってくれません。RecraftではImagen3のような細かい多数のオブジェクトの描画は得意ではないのだと思われます。
また、服装や装飾など、パーツが細かい要素でも破綻しにくいところも注目されています。たとえばステージ衣装のようにフリルが多かったり小物が多かったりする場合でも、単に「それらしく見える」だけでなく、拡大しても破綻を感じにくいぐらいディテールが作りこまれやすいとされています。これは、キャラクターの衣装デザインやアイドル風の衣装などを検討するときに参考にしやすいという声もあるようです。
総じて、Imagen3は「ごちゃごちゃした要素」や「複雑なディテール」を伴う画像を生成するときに使いやすいといわれています。大きめの背景と複数オブジェクトが絡むような場面でも、破綻しにくく、細部を比較的しっかり描けるところが特徴です。ディテールを詰め込んだアイデアを試してみたい場合には、Imagen3を選ぶメリットが大きいかもしれません。
3.4. 手
画像生成AIでは、手の描写が大きな課題といわれることが多いですが、今回の両モデルについても、手や指が複数重なった場面など、複雑なシチュエーションでは正確さにまだ限界があるように感じられます。
たとえば、一見すると自然に見えても、よく見ると指が6本に増えていたり、関節や指の位置関係が不自然になっていたりする場合があります。これはRecraftV3でもImagen3でも共通して見られる現象のようで、どちらも「完璧に描ける」と断言できる段階には達していないようです。
3.5. 日本の理解度
「日本人」という単純な指定で画像を生成すると、着物や侍が含まれてしまうことがあるという指摘がある。たとえば、人物の集合写真を作ろうとして「日本人」を指定した場合、なぜか侍が混ざったり、花見のような背景が登場してしまうことがあるようだ。
これらはどちらかのモデルだけの問題というより、海外の学習データやステレオタイプなイメージが原因で起こりがちだと考えられている。単純に「Japanese people」と指定するだけでは、必ずしも現代的な日常風景が再現されないため、侍タイムスリッパーが登場したりします。プロンプトで「現代日本人」といったキーワードを加えて調整するなどの工夫が必要になる場合がある。
Recraft V3とImagen3のいずれの場合でも、単純に「日本人」と記述すると意図しない和装や桜といった描写が挿入されやすいという事例があった。しかし、「現代的な日本人」や「普通の街中の日本人」といった表現を入れて補正すると、比較的自然な描写に近づく傾向がある。両モデルともに、日本人や日本文化の描写に関してはある程度の再現性を示すものの、初期設定のままではややステレオタイプな結果になりやすい点は注意が必要だといえる。
3.6. 弱点
Recraft V3の弱点
Recraft V3はスタイルが豊富で、あらかじめ用意されたスタイルを選ぶだけで手軽に高品質な出力を得やすい一方、あくまで決められた枠内での表現となる場合が多く、自由度はやや低めと感じられることがあります。背景や構図を複雑にしたいとき、スタイルに合わせた絵作りが求められるため、表現が制限される可能性があります。
Imagen3の弱点
Imagen3はスタイルのプリセットがなく、プロンプトだけでコントロールしようとするとばらつきが出やすいという特徴があります。思いどおりのアートスタイルを指定する際、かなり細かいプロンプト指定が必要となり、コントロールが難しいと感じることがあるようです。
また、コンテンツ規制が非常に強く、未成年が登場するプロンプトを入力しただけで弾かれるケースもあります。必ずしも不適切な内容でなくても、単に「girl」「boy」といった単語を使っただけで生成が拒否されることがあるため、手軽さに反してプロンプト作成時の工夫が求められる点がデメリットといえます。
3.7. 著作権ガード
Recraft V3 は、著作権や人格権のあるキャラクターなどを生成しようとしても、ほぼ何のガードもかかりません。たとえば、有名キャラクターや作品名を指定すると、そのままのイラストが生成できてしまうケースが多いようです。実際に、人気アニメやゲームのキャラクター、ジブリ作品に登場するキャラクターなどを指定しても問題なく出力される場合があり、著作権的には非常にグレーな状態といえます。
一方、Imagen3 は作品によってガードの強度が異なる印象があります。ジブリやディズニー作品のキャラクターはほぼブロックされ、出力を試みてもまったく生成されません。ポケモンのような非常に有名なものも厳しくブロックされますが、マイナーな名前だと通ってしまうこともあるようです。ワンピースの要素を指定すると、それらしきキャラクターを出力してしまうケースもあるため、ガードは強化されているものの抜けがないわけではないと思われます。
ただし、こうしたキャラクターやブランドに関する画像が生成できても、使用すれば当然トラブルのリスクがあります。著作権や人格権で保護されているイラストやキャラクターを勝手に利用することは、本来は認められません。生成できたとしても、そのまま使用するのは避けるべきでしょう。こうした画像の扱いには、常に注意が必要です。
3.8. 比較まとめ(それぞれの向いている使い方)
ここまで、Recraft V3 と Imagen3 の比較をしてきましたが、結論としては、それぞれの強みが大きく異なる印象があります。
Recraft V3 はスタイル機能が豊富で、あらかじめ用意された多彩なテイストを簡単に適用しやすく、目的に合ったビジュアルを手早く作りたい場合には特に便利だと感じました。
一方の Imagen3 は、とにかく複雑なディテールの詰まった画像を得意としていて、細部がごちゃごちゃしたシチュエーションや、スケールの大きな構図でも破綻しにくい点が目立ちます。さらに無料で試せる手軽さも魅力的です。
こうしたことから、Recraft V3 と Imagen3 をうまく使い分けることで、それぞれの長所を活かした画像生成が可能になるのではないでしょうか。目的やイメージの方向性に合わせて選択してみるのがおすすめです。
4. おまけ~Imagen3のおすすめの遊び方~
Imagen3は、複数のキャラクターやごちゃごちゃした背景など、複雑な構図を生成するのが得意だと感じられます。特にディテールの細かさを楽しむには、大勢の人物や独創的なクリーチャー、ありえないシチュエーションを指定してみると、思いがけない面白い結果が出てきます。以下では、その一例をいくつか紹介します。
日本の漫画の登場人物100人
存在しないキャラクターを「日本の漫画の登場人物100人」といった具合にまとめて生成すると、雑誌の表紙や特集のように多数のキャラが並んだ画像ができあがります。一人ひとりをズームして見ると、それぞれが微妙に異なる要素を持っているため、思わぬデザインの発見があるかもしれません。
ヒーロー系のバリエーション
「ヒーロー」と指定すると、コミックや映画で見覚えがあるような雰囲気を持ちつつも、どこか違うデザインのキャラが複数生成されることがあります。想像を超えたヒーロー像が登場するため、アイデア出しにも役立つと感じられます。
存在しないコミックヒーローの離職パーティー風景
「存在しないコミックヒーローが大集合し、パーティーをしている場面」等と指定して作ると、マーベルやDC等の既存のヒーローがマッシュアップされたような独自のヒーローが出てきました。既存のヒーローそのものは出て来ていなそうでちゃんとプロンプトに従っていそうです
日本の化け物
「日本の化け物(Japanese Monsters)」と指定すると、妖怪やクリーチャー系のキャラを無数に生成できます。化け物であれば、細部がやや崩れていても自然に見えることが多いため、奇抜な姿の集合体が生まれやすいのが特徴です。多種多様なクリーチャーのデザインをまとめて眺めるのは、とても楽しい体験です。
ファミコン風のキャラクター
たとえば「ファミコン風」「メガドライブ風」といったレトロゲームを意識した表現を指定してみると、それらしくピクセル調で描かれたキャラクターが登場する場合があります。古いゲームの雰囲気を持ちながら、新規の発想で生まれたキャラを眺めるのも一興です。
こうした遊び方では、作られた画像をズームして細かい描き込みを楽しむのもおすすめです。Imagen3は複数の登場人物や複雑な要素を組み合わせるのが得意なので、いろいろなテーマや世界観を試してみると新しい発見があるかもしれません。
おつかれさまです
この記事は動画「最強画像生成AI徹底比較RecraftV3 vs Imagen3【#31 わく枠べんきょ会】」を記事化したものです。動画ではより詳細に画像について見ていますので、こちらもどうぞ
Discussion