🔍

面白そうな論文紹介【CVPR2024】

2024/03/20に公開

今年のCVPR2024に採択されたタイトルが公開されました。
会議を待たずに論文やコード、プロジェクトページを公開してくれている著者もたくさんいます。

今回は、個人的に面白いと感じた・惹きつけられた論文をテンポよく紹介していきます。

論文紹介

Shadows Don’t Lie and Lines Can’t Bend! Generative Models don’t know Projective Geometry...for now

[arXiv] [Project Page]
AIによって生成された画像は、視覚的に魅力的だが、しばしば影の位置合わせや消失点の精度に誤りがあることに着目。
幾何学的な解析や影の方向を見ることで、リアルの画像とAI生成の画像との矛盾を指摘してくれるモデル。

RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models

[arXiv] [Code] [Demo] [Project Page]

ビデオの編集したい点をテキストで入力することで、元のビデオの意味情報を維持しながら高品質のビデオを生成

左の入力動画とプロンプトを与えるだけで動画を編集できてしまう、すごい。
デモで実際に使えて、サンプル動画なら2分程度で出力可能。

MoSAR: Monocular Semi-Supervised Model For Avatar Reconstruction Using Differentiable Shading

[arXiv] [Project Page]

ポートレート画像を再度照明可能な3Dアバターに変換。

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics

[arXiv] [Code] [Project Page] [Video]

3Dガウシアンとニュートンダイナミクスを使って、様々な材質や形状で高品質なモーション合成を実現。
ジャムのペースト状な感じがここまで再現できるのは驚き。

https://twitter.com/i/status/1764738839791435778

Diffusion 3D Features (Diff3F)

[arXiv] [Code] [Project Page]

ゼロショットでsemantic descriptors (データの意味を表現するための特徴) を生成。

例えば、 くまのぬいぐるみの足にポイントを置いたら、机と足にも同じようにポイントを置ける。他にも豚の耳とゾウの耳、トラの鼻と飛行機の鼻が対応づけできる。

他にもゼロショットでパーツ分解できたり、色々なことに応用できそう。

ScoreHMR: Score-Guided Diffusion for 3D Human Recovery

[arXiv] [Code] [Project Page]

3次元人物姿勢・形状再構成のための逆問題を解決するためのアプローチである、スコアガイド付き人物メッシュ回復。

モデルフィッティングのアプローチを模倣するが、画像との位置合わせは、拡散モデルの潜在空間におけるスコアガイダンスを通じて実現。

Garment Recovery with Shape and Deformation Priors

[arXiv] [Project Page]

ぴったりとした服を着た人物のモデルの手法が多い中、この論文ではゆったりとした服に着目。

タイトな服装からリラックスした流れるような服装まで、幅広い種類の衣類にわたって細かいディテールを備えたリアルな3Dメッシュを生成できる。

Scaling Up Dynamic Human-Scene Interaction Modeling

[arXiv] [Code] [Demo] [Project Page]

このモデルは、シーンとアクションの埋め込みを条件入力とする自己回帰条件拡散 (autoregressive conditional diffusion) を採用しており、任意の長さのモーションを生成することができる。

実際にデモを動かしてみたら、椅子と机の間を通るような狭いところを通る動きなどもかなりリアルに生成できてすごさが実感できる。これはMoCapにも匹敵すると言いたくなる。

https://twitter.com/siyuanhuang95/status/1768213786845221283

SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion Priors

[arXiv] [Code] [Project Page]

指定されたテキストプロンプトから3D屋内シーン用の高品質のテクスチャを生成。

https://twitter.com/davech2y/status/1762238558901862566

感想

個人的には、論文のProject Pageを見るのが好きです。
あとこれの3倍くらいの数の論文ストックしてて、面白そうなのに追いきれていない。。
たまに更新していきます。

参考

https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers

https://github.com/52CV/CVPR-2024-Papers?tab=readme-ov-file

Discussion