✈️
【トップカンファ】 ICCV2025 視察日記

2025/11/10に公開
今回、EQUESのANIMINSチームでコンピュータビジョン分野のトップカンファレンスの１つであるICCVに視察に行ってまいりました！
ANIMINSについて知りたい方は株式会社オー・エル・エム・デジタル様・経済産業省の以下の記事をご参照ください。
https://www.note.imagicagroup.co.jp/n/ne6c745066c84?gs=44137b52bf4f
https://www.meti.go.jp/policy/mono_info_service/geniac/selection_data_2/index.html


 ワークショップ1日目と2日目はワークショップが開催されます。ワークショップという名前ではありますが、内容は口頭発表・ポスター発表となっており、テーマごとに区分けされている形です。トップカンファレスだけあって、本当に多数のワークショップが存在します。クリエイティブ関連でもいくつか参考になりそうなワークショップがありました。

Generative AI for Audio-Visual Content Creation（Gen4AVC）

Audio-Visual Generation & Learning（AVGenL）

Personalization in Generative AI Workshop（P13N）
その他にも気になった発表がたくさんありました。

KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
拡散モデルによる動画生成において「音情報」が入力される際に生成クオリティを上げるための研究です。


Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations
著者らの所属はボストン大学とRunway（画像・動画生成で有名なスタートアップ）
ある特定の概念（不適切要素・明るさ暗さなど）を制御するのにk-SAEを活用する手法.


UnZipLoRA
ICCV highlightに選ばれている研究の１つ.
画像をコンセプトとスタイルに分離するLoRAを学習します。それにより新たな画像を生成する際に、コンセプト側の制御とスタイル側の制御がそれぞれ可能になります。
実用上は１枚の画像を利用する際、その画像ごとにUnZipLoRAの学習を行う必要がある点が懸念と感じました。
また, 現行のQwen-Image-EditなどではZero-shotで「１枚目のスタイルで２枚目の画像を参照する」ができるのではないかと感じました。それだけビッグテックのモデルが強力だとも言えますが...

アニメ分野とあまり関連は無いですが、以下の発表も面白いと感じました。

How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
室内での音の聞こえ方というのは反射波の重なりであり, 室内の壁や天井, 物体の素材にも大きく左右されます.
多様な11種類の素材に対する音響のデータセットを作成しました.
ベースライン手法の確立もされていないとのことで, かなり新しくてspecificな問題設定だと感じました.


 本会議3日目から本会議の発表が始まります。
アニメの本丸領域、彩色に関して以下の発表がありました。
DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images
日本人チームからの発表！（東京電機大学）
キャラデザをreference imageとして入力する際に複数画像入力するためのフレームワーク.
特徴量のsimilarityが最も高い色で着色
性能が高いと名高いDINOv2を用いた特徴量抽出
既存手法よりも高い精度を達成し、Acc-Threshで７割超という温度感.
囲まれた領域などはどうしても苦手（腕と体に挟まれた背景部分など）
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Model Supplementary Materials
すでに有名な研究で、「これICCV採択だったのか！」という研究。
アニメ制作においても重要である「レイヤーごとの作成」に焦点を当てています。
オクルージョンや影に代表されるようなレイヤー間の一貫性をどう担保しつつ画像生成を行えるか。
LayerAnimate: Layer-level Control for Animation
ANIMINSの他メンバーも早くから注目していたレイヤー関連の生成手法。
Layer ControlNetにより、レイヤーごとに制御を加えることが可能。
SAMモデル（Segment Anything）を活用して、実際の動画からレイヤー構造を逆に抽出する方法もLayer-Curation-Pipelineとして公開済み。
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation
TaxaはTaxonomyから。階層的な分類構造を利用して学習・生成を行う。
色々なクラスでLoRAを使う。
FiVE-Bench: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models
今回のポスター発表ではBenchmarkの発表も非常に多かったです。
ハーバード大学らによる、動画編集の性能を測るベンチマーク。
その他Metaの有名な研究DINOの最新版、「DINOv3」などもありました。アニメに直接関係はありませんが、我々もアニメ領域での活用が大いに期待できるのではないかと注目している研究です。

 おわりにANIMINS（アニミンズ, ANIMe INSight）はオー・エル・エム・デジタル社が実施するデータ・生成AI利活用実証事業です。AIを「ツールの一つであり、クリエイターをサポートするもの」と明確に位置づけ、アニメ制作現場でAIの利活用が本当にできるのかを徹底的に調査しています。
詳しくは以下のホームページもご覧下さい。
経済産業省 GENIAC 特設ページ
IMAGICA GROUP note記事
EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
https://www.wantedly.com/companies/company_6691299
ワークショップ

本会議

おわりに

Discussion