✈️

【トップカンファ】 ICCV2025 視察日記

に公開

今回、EQUESのANIMINSチームでコンピュータビジョン分野のトップカンファレンスの1つであるICCVに視察に行ってまいりました!

ワークショップ

1日目と2日目はワークショップが開催されます。ワークショップという名前ではありますが、内容は口頭発表・ポスター発表となっており、テーマごとに区分けされている形です。トップカンファレスだけあって、本当に多数のワークショップが存在します。クリエイティブ関連でもいくつか参考になりそうなワークショップがありました。

  1. Generative AI for Audio-Visual Content Creation(Gen4AVC)
  2. Audio-Visual Generation & Learning(AVGenL)
  3. Personalization in Generative AI Workshop(P13N)

その他にも気になった発表がたくさんありました。

  • KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
    • 拡散モデルによる動画生成において「音情報」が入力される際に生成クオリティを上げるための研究です。
  • Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations
    • 著者らの所属はボストン大学とRunway(画像・動画生成で有名なスタートアップ)
    • ある特定の概念(不適切要素・明るさ暗さなど)を制御するのにk-SAEを活用する手法.
  • UnZipLoRA
    • ICCV highlightに選ばれている研究の1つ.
    • 画像をコンセプトとスタイルに分離するLoRAを学習します。それにより新たな画像を生成する際に、コンセプト側の制御とスタイル側の制御がそれぞれ可能になります。
    • 実用上は1枚の画像を利用する際、その画像ごとにUnZipLoRAの学習を行う必要がある点が懸念と感じました。
    • また, 現行のQwen-Image-EditなどではZero-shotで「1枚目のスタイルで2枚目の画像を参照する」ができるのではないかと感じました。それだけビッグテックのモデルが強力だとも言えますが...

アニメ分野とあまり関連は無いですが、以下の発表も面白いと感じました。

本会議

3日目から本会議の発表が始まります。

アニメの本丸領域、彩色に関して以下の発表がありました。

その他Metaの有名な研究DINOの最新版、「DINOv3」などもありました。アニメに直接関係はありませんが、我々もアニメ領域での活用が大いに期待できるのではないかと注目している研究です。

おわりに

ANIMINS(アニミンズ, ANIMe INSight)はオー・エル・エム・デジタル社が実施するデータ・生成AI利活用実証事業です。AIを「ツールの一つであり、クリエイターをサポートするもの」と明確に位置づけ、アニメ制作現場でAIの利活用が本当にできるのかを徹底的に調査しています。

詳しくは以下のホームページもご覧下さい。

EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。

https://www.wantedly.com/companies/company_6691299

Discussion