【トップカンファ】 ICCV2025 視察日記
今回、EQUESのANIMINSチームでコンピュータビジョン分野のトップカンファレンスの1つであるICCVに視察に行ってまいりました!
- ANIMINSについて知りたい方は株式会社オー・エル・エム・デジタル様・経済産業省の以下の記事をご参照ください。

ワークショップ
1日目と2日目はワークショップが開催されます。ワークショップという名前ではありますが、内容は口頭発表・ポスター発表となっており、テーマごとに区分けされている形です。トップカンファレスだけあって、本当に多数のワークショップが存在します。クリエイティブ関連でもいくつか参考になりそうなワークショップがありました。
- Generative AI for Audio-Visual Content Creation(Gen4AVC)
- Audio-Visual Generation & Learning(AVGenL)
- Personalization in Generative AI Workshop(P13N)
その他にも気になった発表がたくさんありました。
-
KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
- 拡散モデルによる動画生成において「音情報」が入力される際に生成クオリティを上げるための研究です。
-
Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations
- 著者らの所属はボストン大学とRunway(画像・動画生成で有名なスタートアップ)
- ある特定の概念(不適切要素・明るさ暗さなど)を制御するのにk-SAEを活用する手法.
-
UnZipLoRA
- ICCV highlightに選ばれている研究の1つ.
- 画像をコンセプトとスタイルに分離するLoRAを学習します。それにより新たな画像を生成する際に、コンセプト側の制御とスタイル側の制御がそれぞれ可能になります。
- 実用上は1枚の画像を利用する際、その画像ごとにUnZipLoRAの学習を行う必要がある点が懸念と感じました。
- また, 現行のQwen-Image-EditなどではZero-shotで「1枚目のスタイルで2枚目の画像を参照する」ができるのではないかと感じました。それだけビッグテックのモデルが強力だとも言えますが...
アニメ分野とあまり関連は無いですが、以下の発表も面白いと感じました。
-
How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
- 室内での音の聞こえ方というのは反射波の重なりであり, 室内の壁や天井, 物体の素材にも大きく左右されます.
- 多様な11種類の素材に対する音響のデータセットを作成しました.
- ベースライン手法の確立もされていないとのことで, かなり新しくてspecificな問題設定だと感じました.
本会議
3日目から本会議の発表が始まります。
アニメの本丸領域、彩色に関して以下の発表がありました。
-
DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images
- 日本人チームからの発表!(東京電機大学)
- キャラデザをreference imageとして入力する際に複数画像入力するためのフレームワーク.
- 特徴量のsimilarityが最も高い色で着色
- 性能が高いと名高いDINOv2を用いた特徴量抽出
- 既存手法よりも高い精度を達成し、Acc-Threshで7割超という温度感.
- 囲まれた領域などはどうしても苦手(腕と体に挟まれた背景部分など)
-
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Model Supplementary Materials
- すでに有名な研究で、「これICCV採択だったのか!」という研究。
- アニメ制作においても重要である「レイヤーごとの作成」に焦点を当てています。
- オクルージョンや影に代表されるようなレイヤー間の一貫性をどう担保しつつ画像生成を行えるか。
-
LayerAnimate: Layer-level Control for Animation
- ANIMINSの他メンバーも早くから注目していたレイヤー関連の生成手法。
- Layer ControlNetにより、レイヤーごとに制御を加えることが可能。
- SAMモデル(Segment Anything)を活用して、実際の動画からレイヤー構造を逆に抽出する方法もLayer-Curation-Pipelineとして公開済み。
-
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation
- TaxaはTaxonomyから。階層的な分類構造を利用して学習・生成を行う。
- 色々なクラスでLoRAを使う。
-
- 今回のポスター発表ではBenchmarkの発表も非常に多かったです。
- ハーバード大学らによる、動画編集の性能を測るベンチマーク。
その他Metaの有名な研究DINOの最新版、「DINOv3」などもありました。アニメに直接関係はありませんが、我々もアニメ領域での活用が大いに期待できるのではないかと注目している研究です。
おわりに
ANIMINS(アニミンズ, ANIMe INSight)はオー・エル・エム・デジタル社が実施するデータ・生成AI利活用実証事業です。AIを「ツールの一つであり、クリエイターをサポートするもの」と明確に位置づけ、アニメ制作現場でAIの利活用が本当にできるのかを徹底的に調査しています。
詳しくは以下のホームページもご覧下さい。
EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
Discussion