🦖

3D生成AI と Photogrammetry: 補完制約と情報伝達度

2025/02/08に公開

はじめに

仮想空間に現実のオブジェクトを正確に再現するフォトグラメトリ Photogrammetry (Structure from Motion:SFM) という技術がある一方、仮想空間に非現実の、または現実の一部分を拡張してオブジェクトを作成する 3D生成AI という技術があります。SFM のオブジェクト作成に 3D生成AI のデータは使えるのでしょうか?
今回、Agisoft社Metashape でクリスマスオーナメントをSFMしたものと、3D生成AI MVAdapter-I2MV, と Hunyuan3D-2 で同じオーナメントを仮想空間に拡張し、比較検討しました。Metashape, Hunyuan3D-2 は、RTX 2080Ti で稼動、MVAdapter-I2MV は Comfyonline で動かしました。
https://github.com/huanngzh/MV-Adapter
https://github.com/Tencent/Hunyuan3D-2

  • Title: 3D Generation AI and Photogrammetry: Constraints and Informativity

  • Introduction
    Photogrammetry is a technology that accurately reproduces real objects in virtual space. On the other hand, there is a technology called 3D generation AI that creates objects in virtual space by extending unreal or real parts of reality. Can data from 3D generation AI be used to create photogrammetry objects?
    In this article, we compared and examined the results of photogrammetry of a Christmas ornament using Agisoft Metashape and the same ornament extended into a virtual space using 3D generation AI MVAdapter-I2MV and Hunyuan3D-2. Metashape and Hunyuan3D-2 run on an RTX 2080Ti. MVAdapter-I2MV was run on Comfyonline.

  • 主題: 3D Generation AI和摄影测量:约束与信息性

  • 简介
    摄影测量技术是一种在虚拟空间中精确再现真实物体的技术。另一方面,有一种名为3D generation AI的技术,它通过扩展现实中的不真实或真实部分来在虚拟空间中创建物体。3D generation AI的数据是否可以用于创建摄影测量对象?
    在这篇文章中,我们使用Agisoft Metashape对圣诞装饰品进行了摄影测量,并使用3D generation AI MVAdapter-I2MV和Hunyuan3D-2将同一装饰品扩展到虚拟空间。Metashape和Hunyuan3D-2在RTX 2080Ti上运行。MVAdapter-I2MV在Comfyonline上运行。

House Of Lloyd Toy Shop Musical 1990

30年以上、我が家のクリスマスを飾るオーナメントです。
At my house, this ornament has been decorating for over 30 years.
在我家,这个装饰品已经装饰了30多年了。

Case A: 情報伝達 ほぼ 100%

Case A: Information transfer rate, almost 100%
案例 A:信息传输率,接近100%

Case Number of photos 3D generation 3D image
A 50 real photos SFM

3D オブジェクトは 50枚の写真を用いて、Metasape で作成しました。SFM には 30 - 200枚の写真が必要と言われています。SFM を用いれば 立方体6面の画像を再現でき、3次元の表面情報をほぼ 100% 伝達できます。今回は、再現オーナメントのドア一部に穴が開き、写真50枚ではやや不十分なところがありました。

Case B: 情報伝達 ほぼ 0%

Case B: Information transfer - almost 0%
案例 B:信息传递——几乎为0

Case Number of photos 3D generation 3D image
B 10 real photos SFM

SFM の欠点は、再現に失敗すると何も伝達できないことです。10枚の写真でオーナメントを SFM しましたが、ご覧の通りです。10枚の写真を 2D で見たほうが、まだ情報を伝達できます。写真の枚数が十分でも、極端に細い物体、透明や反射の強い物体、移動し変化する物体などは、SFM に失敗することがあります。

Case C: 情報伝達 ほぼ 15%

Case C: Information transfer rate - almost 15%
案例 C:信息传输率——近15%

Case Number of photos 3D generation 3D image
C 1 real photo Hunyuan3D-2

オーナメント正面写真 1枚を、Hunyuan3D-2 で 3D 化したものです。正面方向はほぼ現実を伝達していますが、他の方向は 3D生成AI が創出しています。立方体の 1面だけの表面情報を伝達しているので、伝達度 15% ( 1/6 ) 程度と言えます。情報伝達度 15% とはいえ、仮想空間の 3D オブジェクトとして破綻も矛盾も感じません。 本物のオーナメント: Case A を知らなければ、似非オーナメントである事は分からないでしょう。

Case D: 情報伝達 ?? %

Case D: Information transfer rate: ??%
案例 D:信息传输率:??%
10枚の現実写真に20枚の 3D生成AIで作った写真を加えるとどうなる?

Case Number of photos 3D generation 3D images
D 10 real photos,
20 MVAdapter-I2MV images
SFM What happens when you add 20 photos created with 3D generation AI to 10 real photos?

Case D について、次の項で実験します。

SFM に 3D生成AI を融合する

Integrating 3D generation AI with photogrammetry (SFM)
将3D generation AI与摄影测量(SFM)相结合

a. MVAdapter-I2MV でカメラ視点を作成する

Creating a camera viewpoint with MVAdapter-I2MV
使用MVAdapter-I2MV创建相机视角

MVAdapter-I2MV は 1枚の写真から、カメラ視点の異なる 6枚の写真を生成できます。Case D の実験をするために、Case B で用いた 10枚の写真を、MVAdapter-I2MV で増幅しました。増幅した 6枚の内、オリジナルのカメラ視点に近い2枚を採用しました。他は、AI創出要素が強いと判断し破棄しました。

オリジナル写真 10枚に、MVAdapter-I2MV image 20枚を加えて SFM を行ってみました。

b. Metashape で SFM を行う

Performing SFM with Metashape
使用 Metashape 进行 SFM

Metashape に Case B の real photos 10枚と、MVAdapter-I2MV で作成した image 20枚 を指定して 3D モデルを作成しました。今回は、Metashape の Demo 版を使用しています。
Metashape の操作は簡単です。動画のように、以下の順番でクリックすると 3D モデルを作成できます。

  1. Workflow
  2. Add Photos
  3. Align Photos
  4. Build Model
  5. Build Texture

途中次のような警告が出ています。

追加した MVAdapter-I2MV のカメラ像は、位置合わせに失敗しているようです。

c. 結果

Results
结果

Case B Case D
10 real photos 10 real photos,
20 MVAdapter-I2MV images

Case B に 3D生成AI で増幅したカメラ視点を加えても、改善は見られませんでした。MVAdapter-I2MV で作成したカメラ視点の像は、辺や点の位置が不安定で Case B よりモデリングが劣化したように見えます。SFM では、移動したり変化したりする対象の 3D化は失敗しやすい特徴がありますが、MVAdapter-I2MV で創出した画像は、そのような負の効果をもたらしたと思います。一方、写真の枚数が増えた分、テクスチャの生成は改善しました。以下のような判定になると思います。

Even when the camera view generated by the 3D generation AI was added to Case B, no improvement was seen. The image of the camera view created with MVAdapter-I2MV appears to have worse modeling than Case B, with unstable positions of the edges and points. In SFM, 3D modeling of moving or changing objects tends to fail, and I think the images created with MVAdapter-I2MV had such a negative effect. On the other hand, the number of photos increased, and the texture generation improved. I think the following judgment can be made.

即使将3D生成AI生成的相机视图添加到案例B中,也没有看到任何改进。使用MVAdapter-I2MV创建的相机视图图像的建模效果似乎比案例B更差,边缘和点的位置不稳定。在SFM中,移动或变化对象的3D建模往往失败,我认为使用MVAdapter-I2MV创建的图像产生了这种负面影响。另一方面,照片数量增加了,纹理生成也改善了。我认为可以做出以下判断。

Case D: 情報伝達 ほぼ 0 %

Case D: Information transfer rate: Almost 0%
案例 D:信息传输率:几乎为 0%

3D オブジェクトを融合する

Merging 3D objects
合并 3D 对象

3D オブジェクトを作成する段階で、SFM と 3D生成AI を融合するのは困難でした。一旦生成された 3D オブジェクトを Windows 3D Builder のようなアプリで融合させるのは可能でしょうか?
次のように、オーナメントの正面、後面、右側面の写真から、Hunyuan3D-2 で 3Dオブジェクトを生成しました。各オブジェクトは写真で与えられた方向については、ある程度現実を反映しますが、逆方向については AI が適当に創出しているのがわかります。

direction 1 real photo generated 3D object
a front view hunyuan3D
a rear view hunyuan3D
a right view hunyuan3D

これらの 3Dオブジェクトから、view が正確な部分を Windows 3D Builder で切り出し、融合しました。3Dオブジェクトの比率を合わせたり、融合面を合わせたり、ジジイが手作業でできたのは 3方向張合わせが限界でした。

Extract the exact part of a 3D object Fuse together

Case C を情報伝達 15% としたので、その 3倍の 45% と言いたいところですが、稚拙な出来栄えから 40% ほどだと思います。
Since Case C was set at 15% information transfer, I would like to say that it is 45%, which is three times that, but due to the poor quality of the work, I think it is around 40%.
由于案例C的信息传输率设定为15%,我想说的是,实际传输率为45%,是设定值的3倍,但由于工作质量不佳,我认为实际传输率约为40%。

Case E: 情報伝達 ほぼ 40 %

Case E: Information transfer: almost 40%
案例 E:信息传输率:近40%

まとめ

現実の 3D情報を、様々な手技でどれほど伝達できるか独断と偏見でまとめてみました。SFM は情報をほぼ 100% 伝達できますが、そのためには写真を 50 - 200枚用意する必要があります。時間と手間がかかり、 3Dモデル生成に失敗するリスクがあります。Hunyuan3D-2 による 3D生成は、 1枚の写真から可能ですが、写真の撮影方向以外は AI の空想になります。現実の情報伝達は 15% ほどと思われます。3D生成AI でより高い情報を伝える手段として、対象を 6方向から撮影し、各写真ごとに 3Dオブジェクトを作り、正確な部分を切り出して融合する方法が考えられます。手作業での 3Dオブジェクト融合は、3方向が限界でした。現実の情報伝達は 40% ほどと思われます。もし、手作業ではなくプログラム的に 6方向の融合が可能であれば、少ない写真で SFM に近い情報を伝達できると思います。このように、情報伝達度は低いものの少ない写真で生成される 3Dオブジェクトは、立体絵本や商品説明など応用範囲は広いと思われます。

  • Summary
    I have tried to summarize how much of the real 3D information can be conveyed using various techniques, based on my own opinions and prejudices. SFM can convey almost 100% of the information, but in order to do so, you need to prepare 50 to 200 photos. It takes time and effort, and there is a risk of failure in generating the 3D model. 3D generation using Hunyuan3D-2 is possible from a single photo, but other than the direction in which the photo is taken, the AI will make up the rest. It is thought that the information transfer of reality is about 15%. As a means of conveying higher information with 3D generation AI, it is thought that a method of taking photos of the subject from 6 directions, creating a 3D object for each photo, and extracting and fusing the accurate parts is possible. The limit of manual 3D object fusion was 3 directions. It is thought that the information transfer of reality is about 40%. If it were possible to programmatically fuse six directions instead of manually, I think it would be possible to convey information similar to SFM using fewer photographs. In this way, although the information transfer rate is low, 3D objects created using fewer photographs have a wide range of applications, such as in 3D picture books and product descriptions.

  • 总结
    我尝试根据自己的观点和偏见总结出使用各种技术可以传达的真实3D信息量。静态光场(SFM)几乎可以传达100%的信息,但为此需要准备50到200张照片。这需要花费时间和精力,而且生成3D模型存在失败的风险。使用Hunyuan3D-2,仅凭一张照片就可以生成3D模型,但除了照片的拍摄方向外,人工智能(AI)将完成其余工作。据认为,现实的信息传输率约为15%。作为通过3D生成AI传递更多信息的一种手段,人们认为,一种从六个方向拍摄对象照片,为每张照片创建一个3D对象,并提取和融合精确部分的方法是可行的。手动3D对象融合的极限是3个方向。据认为,现实的信息传输率约为40%。如果能够以编程方式融合六个方向,而不是手动融合,我认为将有可能使用更少的照片来传达类似于SFM的信息。通过这种方式,尽管信息传输率较低,但使用更少照片创建的3D对象具有广泛的应用,例如在3D图画书和产品描述中。

Case A Case C Case E
Number of photographs 50-200 1 3
generation SFM Hunyuan3D-2 Hunyuan3D-2 + manual
information transfer rate 100% 15% 40%

あとがき:

  1. 推薦 SFM アプリ
    今回の記事を書く際に、有名どころを含め 7つの SFM アプリを試しました。我が家のクリスマスオーナメントを 50枚の写真からほぼ正確に再現できたのは、Agisoft社Metashape と、iphone アプリの Abound Labs社 Abound 3D Scanner だけでした。Abound 3D Scanner は iphone で連続撮影した画像しか使用できません。Metashape は、使用画像を PC 上で選択できるので自由度が高いと思います。また、Metashape のデモ版は、保存ができないなどの制約がありますが、無料で全機能が使えてお勧めです。他社のアプリは、、、止めておきます。
  2. 3D Builder
    今回、3D オブジェクトの結合や差分、型抜きを行うアプリとして Windows 3D Builder を用いました。直観的に操作ができて無料で使える非常に良いアプリと思います。Autodesk Fusion でも同様な操作ができますが、glb ファイルを扱えません。一旦、Blender でファイル変換すれば良いのですがテクスチャーが外れます。 Windows 3D Builder は Microsoft のサポートが終了しているようです。PhotoDraw のように消滅する前に、ダウンロードをお勧めします。
  3. 検証
    Zenn に投稿を初めて半月が経過し記事は 5本になりました。記事には、ちらほら英語圏や中文圏の方のアクセスがあります。もし、英文や中文で記事の一部を提示したらアクセス動向はどうなるか? 今回、DeepL に手伝ってもらって、検証記事にしました。読み辛くて申し訳ありません。

Discussion