📝

【論文紹介】アニメAIの最新サーベイ論文

に公開

論文タイトル:Generative AI for Cel-Animation: A Survey

リンク:https://arxiv.org/abs/2501.06250

※ 本ページの図は特筆がない限り全て本論文から引用しています。


はじめに

2025/7/28、Generative AI for Cel-Animation: A Surveyというサーベイ論文がArxiv上に公開されました。

分かりやすく先行研究がまとまっていたので今回紹介していきたいと思います。

まずセルアニメーション制作の歴史の流れを確認しましょう。1920年代から2010年ごろまでは手作業のみで作るアニメ制作が主流でした。その後コンピュータやツールの発展に伴い、CGなどを活用するアニメも少なくない時代となりました。この図では2020年代からは「AIGC Cel Era」、すなわち生成AIを用いてセルアニメーションを制作する時代だと謳っています。AIGCという用語は近年普及しつつあり、”AI Generated Contentx”の略です。図の縦軸に表される生産性とクリエイティビティが本当に指数的に増加するかは置いておいて、制作補助だけではなくコンテンツそのものをAIが生成する世界線が見据えられているということです。


アニメ制作の歴史

この図の中に青丸として現れている研究は確かにこの領域で注目を集めているものたちばかりです。簡単におさらいしておきましょう。

  • Anisora:いわずとしれた「黒船」的存在です。bilibili発で、大量のアニメデータが学習に使われています。初出以来アップデートも多く、現在はWanベースのV2もあります。
  • AniDoc:拡散モデルで線画の中割から着色まで行えるモデルです。実写領域での基盤モデル(Stable Video Diffusion)が登場してからすぐに取り入れられました。
  • ToonCrafter:AniSoraが出てくる前のアニメ生成モデルのファーストペンギンでした。動画生成基盤モデルのDynamiCrafterを同開発チームがアニメドメインに特化させたものです。2024年5月登場時は性能が一強といっても差し支えなく、多くの研究で利用が見られました。
  • AnimeRun:オープンソースの3Dアニメ動画から線画と動画(色付き)および対応付ラベル(ピクセルごと、セグメントごと)を切り出し、大規模なデータセットとして公開した研究です。既存の中割手法を本データセットでファインチューニングすると、実際のアニメに対してもクオリティが向上することも確認されています。ただ中割手法自体が当時2022年のものなので、そこまで結果の質が良いわけではないです。

AIでのアニメ制作はまだまだ課題が多いです。

  • スタイルの一貫性(maintaining stylistic consistency)
  • 時間的な流れの一貫性(ensuring temporal coherence)
  • 人間の製作者の意図を正確に反映すること(precisely capturing human creative intent)

本論文では以下従来のアニメ制作のワークフローがどのようなものかを説明した後、生成AI技術を用途ごとに紹介する流れとなっています。本記事では前者については以下の図を参照するにとどめ、後者については弊社EQUESの研究チームが特に関心を寄せている「中割技術」について重点的に紹介することにします。


アニメ制作の一般的なワークフロー

Inbetween/動画

アニメ制作の世界では中割化のことを「動画」と呼びます。VideoではなくInterpolationもしくはInbetweenのことなので注意が必要です。少々ややこしいですね。そもそも中割作業とは2枚のフレーム、始点と終点から間のセルを作成する作業のことで、人手と時間がかかっている工程の一つです。ここを生成AIで加速できないかということで注目が集まっています。

Section 3.2 GenAI for Productionの中の一節、Inbetweeningでは先行研究がいくつか列挙されています。ここでは各々の原論文もあたりながら紹介をしていきます。

ToonCrafter

まずSOTAだとされているのがToonCrafter [Xing et al., 2024] です。ToonCrafterは同チームによるVideo Diffusion ModelであるDynamiCrafter(image-to-videoでSOTA)をベースに以下3つの工夫

  1. Toon rectification learning:DCInterpが事前に獲得しているであろうモーションを少量のアニメデータでfinetuningすると破壊的忘却を起こしてしまう。それを防ぐため、image-context projectorとspatial layersのみを学習対象にし、temporal layersは固定する。
  2. Dual-reference 3D decoder:Video diffusion modelで生成した潜在表現をデコードする際のデコーダに始点画像と終点画像をエンコードした一部の情報を付加することでディテールを反映した中割生成が行われるようにガイドする。
  3. Sketch encoderによるユーザ制御性

を取り入れ、アニメ中割に特化させたものです。

AutoFI

AutoFI [Shen et al., 2022]はアニメの中割の学習を向上させるデータセット作成手法です。実写に対する中割アルゴリズムはモーションに対し線形補間を想定していましたが、アニメの場合はフレームレートの低さも相まって非線形な補間が必要になります。論文に記載されているリポジトリは存在しますが、2025年8月10日時点ではコードは公開されていないようです。

Deep Sketch-Guided Cartoon Video Inbetweening

この研究[Li et al., 2021]は少し前のものです。ArXiv版も公開されています。モーションとスタイルの一貫性を保持することを目指し人手で描かれた「スケッチ」を活用しようというのがアイデアの根幹でした。具体的にはカラーの始点画像と終点画像を中割するために、人手のラフ画を用います。このラフ画は既存アルゴリズム([Simo-Serra, 2016]など)で”simplified”されたのちに、マッピングやフロー推定を経由して着色されます。

SAIN

SAIN[Shen et al., 2024]はカラー画像ではなく線画の中割に向けた手法の提案です。線画はカラー画像と比べて情報量が得てして少なく、始点と終点が結構差分がある場合の線画の中割は難易度が高いタスクとされていました。SAINは① regionレベル ② strokeレベル ③ ピクセルレベル での対応関係を取ることによって、多段階のアプローチでこれを実現に近づけています。まずピクセルレベルではVFIFormerを用いてOptical flowを推定します。次にstrokeレベルの対応ではSuperGlueという有名な研究を活用します。キーポイントがマッチできたあとの補間は単なる線形補間を想定しています。最後にregionレベルの対応ですが、領域自体はtrapped-ballアルゴリズム(LineFillerなど)で取得できます。具体的な手順は述べられていませんが、領域の特徴量を学習済CNNでベクトル表現として取得した後に座標情報と併用して②と同様に対応関係を取得したようです。最終的にこれら3種類の対応関係を入力として「Multi-stream U-Transformers」を学習します。

AnimeInbet

AnimeInbet[Li et al., ICCV2023]は我々のチームが最も注目している研究です。まず3Dデータをもとに線画フレーム列を学習用に100件、検証用に140件含むデータセット「MixamoLine240」を作成している点が注目です。AnimeInbetのパイプラインは四段階からなります。まず始点と終点の線画をエンコーダに入力するわけですが、ここでは3種類のCNNを組み合わせたGeometric embeddingを用いて特徴抽出します。次にこのベクトル表現のマッチングをSuperGlueの要領で取ります。その後、中割を作りますが、マッチングが取れている頂点は単純に線形補間を適用します。マッチングが取れていない頂点をどう動かすかが課題です。この研究ではsoftmax関数を用いた類似頂点からの移動ベクトル平均化を採用しています。GMFlow[Xu et al., CVPR2022]を参考にしたという記述があります。最後にGraph Fusionと呼ばれる統合ステップで完成です。ここでは追加で3層MLPを用いてそもそもその点を描画すべきかを判定させています。これはオクルージョンと呼ばれる、裏側に入って見えなくなる現象を反映することを意図しています。

Exploring inbetween charts with trajectory-guided sliders for cutout animation

こちらは日本人チームによる研究です。中割生成そのものではなく、インタラクティブなアプローチとして紹介されており、Multimedia Tools and Applicationsに採録されています [Fukusato et al., 2024]。早稲田先生の福里先生、OLM Digitalの前島さん、東大の五十嵐先生、OLM Digitalの四倉さんによる共著論文です。アニメ中割技法である”on twos”や”slow-in/out”などのタイミングを可視化できるようにするtrajectory-guided sliderを提案しているようです。

Joint Stroke Tracing and Correspondence for 2D Animation

これまでの研究紹介でもわかるように、線の間の対応づけをとるのが中割タスクにおける大きな課題ということが窺えます。この問題に対し[Mo et al. , SIGGRAPH2024]では1万以上の”ストロークの対応づけが取れた”データセットを収集し学習に用いることで解決しました。やはりオクルージョンの問題などは一般の中割手法同様難しい場合も多く、インタラクティブなアプローチとの融合などが考えられると述べられています。シンガポール南洋理工大学で開発された自動中割りツール「CACANi」を通して利用できます。

MotionBridge

MotionBridge[Tanveer et al., 2025]は実写動画の中割に対する比較的新しい研究です。しかし、アニメ中割にも応用できる可能性を秘めています。論文のタイトル「**Dynamic Video Inbetweening with Flexible Controls」**にもあるように、中割の柔軟な制御性や時間的な一貫性を高めることを目標にしています。具体的にはキーポイントがどう遷移するかを指定することで柔軟に動画を制御できるというものです。とても可能性を秘めた技術ですが、2025年8月10日時点で公式プロジェクトページではコード公開が確認できませんでした。

まとめ

  • 本サーベイ論文ではアニメ制作のプリプロダクションから演出まで、網羅的に生成AI技術の調査をしていました。
  • 今回の記事では、その中でも中割研究に絞って紹介をしました。
  • 共通課題としてオクルージョンや大きなモーションに対する中割が困難であることがあり、決定版として解決された手法はまだありませんが、インタラクティブなアプローチを筆頭に実用に向けた解決策が提案されています。

おわりに

ANIMINS(アニミンズ, ANIMe INSight)はオー・エル・エム・デジタル社が実施するデータ・生成AI利活用実証事業です。AIを「ツールの一つであり、クリエイターをサポートするもの」と明確に位置づけ、アニメ制作現場でAIの利活用が本当にできるのかを徹底的に調査しています。

詳しくは以下のホームページもご覧下さい。

EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。

Discussion