2023年3D系の新技術について
本稿では、2023年に登場した3Dモデル生成AIや、類似する新技術について、3DCGデザイナーの視点から検証し、所感を述べさせて頂きます。
以下のツールを検証してみました。
- Shap-E [テキスト/画像から3Dモデルを生成]
- Masterpiece X - Generate [テキストから3Dモデルを生成]
- 3DFY.ai [テキストから制作済み3Dモデルを生成]
- DreamGaussian [画像から3Dモデルを生成]
- CSM [画像から3Dモデルを生成]
- Meshy [画像から3Dモデルを生成]
- Avaturn [写真から3D顔アバター生成]
- Luma AI [映像(シーン)から3D生成]
- GENIE(lumalabs)[テキストから3Dモデルを生成]
各ツールで生成した3Dデータを、3DCG作成ツールBlenderで展開した場合の構造と、WebGLベースの開発エンジンPlayCanvasにインポートした際のWebブラウザ上の表示を確認していきます。
Shap-E
Shap-E は、OpenAI 社が開発した AI サービスで、テキストや画像から 3D データを作成できます。Shap-E は、3D モデリングができなかった人でも簡単に 3D データを作成できると期待されています。
まずはHuggingFaceにあるShap-Eで試してみます。
プロンプトに「赤い鎧の騎士」と入力してみました。
なんとはなく、それっぽい形状のモデルが生成されましたが、胴、腕、脚、マント?がくっ付いてしまっています。複雑な形状(人や動物のような)はまだ上手く生成できないようです。
頂点数は28,582
マテリアル無し
UVマップ無し
頂点カラーでカラーを持っています。
続いて、画像から生成してみます。
画像はVroidで作成したアバターのスクリーンショット(正面)を使用してみます。
生成結果
頂点数は21,636
マテリアル無し
UVマップ無し
頂点カラーでカラーを持っています。
なんとなくの形状と頂点カラーは生成できていますが、まだまだ実用には遠い感じです。
Blenderで展開してみます。
ポリゴンの整列具合はかなり綺麗な感じがしますが、1グリットづつポリゴンを積層しているようなエッジがオブジェクト全体に発生しています。
PlayCanvasのLaunch画面で表示すると以下のようになります。
Masterpiece X - Generate
Masterpiece X - Generate は、テキストから 3D モデルを生成できる generative AI アプリです。このアプリでは、メッシュ、テクスチャ、アニメーションなどの 3D アセットを作成できます。
Object、Animal、Human(Bate)の3つのカテゴリーから選択し、
プロンプトを直接入力するか、ポップアップから単語を選択する方法でプロンプトを決定していきます。シンプルにSuperHero(スーパーヒーロー)、Realisticと入力。
ボーン(骨)の有り、無しとアニメーションタイプを選択可能。歩くアニメーション込みの.glbでエクスポートしてみます。
こちらが、生成されたキャラクターをBlenderで展開したものです。
アメコミの某ヒーロー達の要素が入っているように見えますね。何故か前面が裸で背面にスーツっぽいテクスチャが生成されています。ベースの人型モデルをプロンプトに合わせて変形させている感じがします。
頂点数 = 27,545
マテリアル = 1(color)
UVマップ = 1
人型モデルをベースとしているようですが、UVの展開は自動展開されているようです。
生成されたテクスチャは以下のものです。
ボーン構造はシンプルで、ウェイトの破綻等もみられませんでした。シェイプキーは有りませんでした。
PlayCanvasにインポートしてアニメーション設定をします。
歩きのモーション自体は行っていますが、首の角度、手の状態の不自然さ、開始/最終フレームのズレ等が見られます。
3DFY.ai
3DFY.aiは、テキストのプロンプトや単一の画像から高品質な3Dモデルを生成するためのAI技術を活用したツールです。
予めベースのカテゴリーがあり、基本的にはそのカテゴリーを選択してから細かなプロンプトを入力するフローとなっています。
生成されたモデルは人の手で編集されているモデルに対してオブジェクトの組み合わせとテクスチャの生成を行っている様です。
こちらは3D生成と言うよりは膨大なモデルデータとテクスチャデータを組み合わせてプロンプトに近いモノを出力するという感じかと思います。
DreamGaussian
DreamGaussian は、テキストや画像から 3D コンテンツを生成するためのフレームワークです。画像 1 枚から数分で 3D モデルを生成でき、高品質なテクスチャメッシュを生成することもできます。DreamGaussian は、バイドゥを含む研究者らによって開発されました。中国の北京大学が公開したモデルです。
任意の画像をdrag&dropし、Generat 3Dボタンをクックすると生成が開始されます。
Shap-eと同様に形状がヌルっとした感じになりますが、画像から読み取ったポリゴンの形状やテクスチャがより鮮明になっています。
Blenderにインポートして見てみると、UVが展開され、テクスチャが生成されているのが確認できます。読み取らせて画像のキャラクターが着ているパーカーの文字やマークを何となく再現しようとしているのが解かります。
頂点数 = 9,972
マテリアル = 1(color)
UVマップ = 1
ポリゴン数も、Shap-eやMasterpiece Xと比べると、少ないポリゴン数で形状を補完できています。
playCanvasにインポートし、アニメーション設定を行いました。
(ボーン設定とアニメーションはMIXAMOを使用しています。)
ポリゴンの形状自体には破綻が無く滑らかにダンスモーションを再生しています。
CSM
CSM(Common Sense Machines)は、画像や動画からゲームエンジンで使用できる3Dアセットを生成できるAIプラットフォームです。CSMは、画像を3Dモデルに変換できるAIです。
正面からのキャラクター画像をdrag&dropすると、自動で横、背面、上部、斜めの画像が生成されます。GenerateボタンをクリックするとPreview Modelが生成され、さらにブラッシュアップされたRefine Modelが生成されます。添付の画像はRefine Modelが生成されたものです。
生成された3Dモデルには、かなりオリジナルな要素が入っています。髪や顔、パーカーのデザインが添付画像から大きく逸脱しているように見られまが、服のシワやパーカーのフード部分を再現しようとしている感じは他の3D生成ツールより優れているように見受けられます。
OBJ、GLB、USDZ形式でエクスポート可能です。
GLBをBlenderにインポートして確認してみます。
若干後ろに倒れている感じです。
頂点数 = 15,810
マテリアル = 1(color)
UVマップ = 1
DreamGaussianの様に整列したポリゴンではなく、ランダムな3角ポリゴンで生成されています。
また、ポリゴン数はShap-eとDreamGaussianの中間程度のようです。
アニメーションさせて確認してみると、他の3D生成ツールより体系がかなりスリムになっている感じが分かります。
Meshy
Meshy は、3D モデルの生成やテクスチャ生成など、3D 制作に必要なツールを提供する AI ツールです。テキストや画像から簡単に 3D アセットを生成することができます。
正面画像をdrag&dropするし、Generateボタンを押すと生成が開始されます。
他の3D生成ツールと比較した場合、テクスチャセットに優位性があります。
生成されるテクスチャセットがcolor、metallic、normal、roughnessと多数自動生成されます。
ただし、生成される3Dオブジェクトの形状がZ方向(奥行)に対して押し出しをしたようなバルーン状になってしまっています。テクスチャの横面も引き伸ばされたような状態です。
頂点数 = 5,169
マテリアル = 4(color、metallic、normal、roughness)
UVマップ = 1
アニメーション設定を施し、playcanvasにインポートしてみました。他の3D生成ツールではcolorテクスチャのみでしたが、Meshyは複数の主要なテクスチャを自動生成してくれるので質感がより詳細に設定できました。
Avaturn
Avaturn は、無料でリアルな 3D アバターを作成できる AI ツールです。このツールで作成したアバターは、仮想現実や拡張現実のソフトウェアで使用できます。自撮り写真から数秒で次世代の 3D アバターを作成できます。アバターはファイルとしてエクスポートしたり、プラグインとして統合したりすることもできます。
自前の携帯で撮影(QRコードが出てきます)するか、画像をアップロードすることで顔アバターを生成します。
撮影データからベースアバターの顔部分に自身の顔写真がテクスチャーとして適用されています。
生成されると体系、髪型、衣装、小物(サングラス等)、靴、アニメーションを選択可能になります。
FaceTrackingにも対応しています。
エクスポートしてBlender上で展開すると、シェイプキーが細かく設定されています。
頂点数 = 17,197
顔部分マテリアル = 3(color、normal、roughness)
UVマップ = 1
PlayCanvasのエディター上でassets欄に展開されたglbデータを確認すると、完全にセットアップされたデータが確認されます。
アニメーションをセットアップして確認すると、顔の表情、目や口の動きも確認できます。
3D生成AIとは若干カテゴリーが違いますが、セットアップ済みの高品質なアバターが2~3分程度で作成できます。
Luma AI
Luma AI(ルーマAI)は、スマートフォンで3Dモデルを作成できるアプリです。Neural Radiance Fields(NeRF)というAI技術を活用しており、ハイエンドゲームで使用されているレイトレーシングの手法の精緻さを採用しています。
Luma AIは、アメリカ・サンフランシスコ発のAIカンパニーによって開発されました。
スマートフォンのカメラで撮影した動画を3Dモデルに変換することが可能です。
デッサン人形を中心に撮影してみました。
各種形式でエクスポートが可能です。
まずは、glbのデータを見ていきたいと思います。オブジェクトの形状は精彩ですが、それに合わせてポリゴン数が膨大になっています。UVテクスチャに関しても30個のマテリアルに分かれていて編集可能な状態ではありません。このデータをweb上で表示したり、アニメーション可能な状態にするには幾つかの工程が必要になります。
こちらの記事にLuma AIで生成したglbデータをblenderでリダクションする方法を記載しています。
頂点数 = 398,962
マテリアル = 30(color)
UVマップ = 1
続いて、Gaussian Splatを見てみます。
Gaussian Splatはポイントクラウドデータなので、ポリゴンやマテリアルという要素がありません。Gaussian Splatの編集にはPlayCanvasのモデルビューワーで、3D Gaussian Splatting(.ply)ファイルを編集することができるSuper Splatというツールが便利です。詳細な使用方法ははがさんの記事をご参照ください。
GENIE(lumalabs)
GENIEは、Luma AIが提供するテキストプロンプトから3Dモデルを生成することができるAIです。テキストプロンプトだけで10秒程度で3Dモデルを生成できるのが大きな特徴の生成AIサービスです。
Discordに参加して、/genie prompt でプロンプトを入力します。10秒程度で4パターンの3Dモデルが生成されました。上記で紹介したShap-eと比べると、精度、速さ共に現状もっともクオリティが高いものとなってます。
Discord上に表示されている View/Download をクリックするとブラウザ上に3Dモデルページが表示されます。マテリアルの種類やメタルネス、ラフネスの強度を調整可能です。
また、右下のボタンから glb でダウンロードできます。
Blenderにインポートしてみました。
頂点数 = 42,569
マテリアル = 1(color)
UVマップ = 1
ポリゴン数はかなり多いですが、3D形状が安定しています。
Mixamoにインポートし、リグ設定/アニメーション選択を行い、Playcanvasにインポート。
アニメーション設定をしてみました。
2023年の3D生成AIの進歩
2023年は、3D生成AIの技術が大きく進歩した年でした。従来の3D生成AIは、品質が低く、生成に時間がかかるため、実用には向いていない印象でした。
しかし、2023年には、学習モデルの進歩により、テキストベースから10~30秒程度で高品質な3Dモデルを生成できるようになりました。また、画像/映像分析から3D化する技術も進化し、携帯電話で撮影した動画からでも3Dモデルを作成できるようになりました。
この進歩により、3D生成AIは、ゲームや映画などのエンターテインメント分野だけでなく、教育や医療などの分野でも活用されるようになってきています。
今後の展望
今後も、3D生成AIの技術はさらに進歩していくことが予想されます。特に、生成スピードの向上や生成の自動化が進むことが期待されています。
生成スピードが向上すれば、3D生成AIをより身近な技術として利用できるようになります。また、生成が自動化されれば、より簡単に3Dモデルを作成できるようになるでしょう。
3D生成AIは、今後もさまざまな分野で活用されていくと考えられます。その進歩に注目していきたいですね。
Discussion