Open3

動画生成に使えそうなデータセット一覧

ramu0eramu0e
データセット 公開年 規模・内容 キャプション / プロンプト 代表的な解像度 ライセンス・入手方法 特徴・補足
Panda-70M 2024 7 千万クリップ/高解像度 複数教師モデルで抽出した高品質キャプション 720–1080 p GitHub+URL (research-only) ([arXiv][1]) HD-VILA から抽出 → 自動選別で“きれいな”字幕付き。汎用 T2V の新定番候補
MiraData 2024 345 Kロング動画(平均30 s) GPT-4V による階層キャプション+4視点属性 720–1080 p HuggingFace(研究目的) ([arXiv][2]) ロングモーション&強い動き。MiraBench 評価セット同梱
VidGen-1M 2024 100 万クリップ Coarse-to-Fine で整形した詳細キャプション 720 p+ GitHub / HF (research-only) ([arXiv][3]) 時間的整合性の高さを売りにした軽量セット
HOIGen-1M 2025 104 万 HOI 動画 Mixture-of-MM Experts 生成キャプション 512–720 p 申請制(学術) ([arXiv][4]) “人物×物体” 相互作用を網羅。T2V の動作精度ベンチに最適
CFC-VIDS-1M 2025 100 万クリップ VLM で精緻化したキャプション 720 p 近日公開予定 (Raccoon 論文) ([arXiv][5]) 品質重視の 4-段階キュレーション。Raccoon モデルと併用
HD-VG-130M 2023 1.3 億クリップ 自動抽出キャプション 1080 p(ワイド) GoogleDrive+ライセンス同意 (academic-only) ([GitHub][6]) VideoFactory 論文が提唱。高解像度&ワイド比率・WM なし
HowTo100M 2019 1.36 億クリップ/約15 年 自動字幕 (ASR) 480–720 p Web スクレイプ (YT) ([Papers with Code][7]) “実演系”が中心。音声付きマルチモーダル前訓練の古典
WebVid-10M 2021 1,000 万クリップ 自然文キャプション 720 p まで URL リスト (stock site) 既存表で紹介済み — デファクト標準
HD-VILA-100M 2022 330 万長尺動画 → 37 万時間 ASR 字幕 & メタ 720 p+ URL (YouTube) 高解像度&多ジャンル
VideoCC (6.3 M / 12 M) 2022 630〜1,200 万 CC-BY キャプション 480–1080 p CC-BY-4.0 法的に扱いやすい
OpenVid-1M / HD-0.4M 2024 100 万 / 43 万(HD) LLM リライト高品質 1080 p HF (research-only) 軽量かつ高精度
LVD-2M 2024 200 万 (≥10 s) 時間密キャプション 720–1080 p 申請制 ロングホライズン学習
VidProM 2024 167 万プロンプト+生成動画 生成側 プロンプト 256–1024 p HF (CC-BY-NC 4.0) プロンプト工学研究向け
Ego4D / Ego4D-HCap 2021–23 3,670 時間 階層キャプション 960 p Consortium 承認 主観視点
Kinetics-700 2020 65 万 (10 s) 行動ラベル 320 p URL (YouTube) 動作多様性
UCF-101 2012 1.3 万 行動ラベル 320 p 直DL 小規模・実験用

最新セット活用のポイント

  1. Panda-70M × WebVid の 2 段プリトレ

    • まず WebVid で粗学習 → Panda で高品質ファインチューンが流行。
  2. ロング動画強化は MiraData or LVD-2M

    • 10 s 上限の既存コーパスではカメラワークが貧弱になりがち。
  3. 人と物の相互作用を重視するアプリ

    • HOIGen-1M を追加すると “手元+道具” の生成精度が向上。
  4. 研究コストを抑えたい個人 / スモール GPU

    • VidGen-1M や OpenVid-1M は 4×A100 程度でも回し切れるサイズ。
  5. 高解像・ワイド比率モデルを目指す場合

    • HD-VG-130M(HD-VG-40M subset)で事前学習、SDXL VAE 併用が有効。
ramu0eramu0e

主な動画生成データセット──ダウンロード方法早見表

データセット 取得できるもの 公式取得手段 / スクリプト 追加ツール・前提 備考
OpenVid-1M / OpenVidHD-0.4M .tar 分割ファイル(HuggingFace 直置き) git lfs install && git clone … もしくは huggingface-cli downloaddatasets.load_dataset("OpenVid-1M") Git LFS, 200 GB 以上空き 完全ミラーなので YouTube など外部 DL 不要 ([Hugging Face][1])
Panda-70M URL & メタ CSV + DL スクリプト python tools/download.py --config full.yaml yt-dlp, FFmpeg, 約 36 TB 10 M/2 M の軽量サブセット YAML も同梱 ([snap-research.github.io][2])
MiraData .parquet 連番(HuggingFace) datasets.load_dataset("TencentARC/MiraData") で自動ストリーミング Git LFS, 約 15 TB ロング動画向け。分割取得可 ([Hugging Face][3])
VidGen-1M HF ストレージ(zip 50 GB ×20) huggingface-cli download Fudan-FUXI/VIDGEN-1M Git LFS 軽量なのでローカル GPU 学習向き ([Hugging Face][4])
HOIGen-1M HF 分割 tar(約 200 GB) datasets.load_dataset("HOIGen/HOIGen-1M") Git LFS 研究オンリーライセンス ([Hugging Face][5])
CFC-VIDS-1M URL リスト+β版 DL スクリプト 論文付属 video2dataset 設定ファイルを実行 video2dataset, yt-dlp 2025-Q3 公開予定(現時点は論文のみ) ([GitHub][6])
HD-VG-130M URL CSV(1.8 GB)+サンプル CLI python tools/download_hdvg.py --list hdvg.csv yt-dlp, Ray, LanceDB ワイド比率。解像度ごとにフォルダ分割 ([GitHub][7])
HD-VILA-100M URL list(jsonl)+ Ray DL スクリプト python download_hd_vila.py --input meta.jsonl yt-dlp, ray[default] Microsoft XPretrain リポに詳細 ([GitHub][8], [Gist][9])
WebVid-10M Shutterstock/Pond5 URL CSV video2dataset --url_list webvid_10m.csv … video2dataset, 商用サイト APIキー不要 失効 URL 自動スキップ機能あり ([GitHub][10], [GitHub][11])
VideoCC (6.3 M/12 M) CC-BY URL TSV video2dataset --url_list videocc.tsv video2dataset 法的に扱いやすく再配布可 ([GitHub][12])
HowTo100M URL & 字幕 CSV ①フォーム申請→アノテーション取得 ②公式 download_youtube.sh yt-dlp, 12 TB+ 音声付き。失効率高め ([GitHub][13])
LVD-2M URL CSV+公式 download_videos_release.py python download_videos_release.py --out_dir videos yt-dlp, FFmpeg ≥10 s の長尺のみを自動抽出 ([GitHub][14])
VidProM HF 直置き(生成動画+prompt) datasets.load_dataset("WenhaoWang/VidProM") Git LFS, 5 TB 合成動画なので著作権クリーン ([Hugging Face][15])
Ego4D / Ego4D-HCap 専用 Downloader CLI pip install ego4dego4d-download --token YOUR_KEY 承認キー, ~14 TB CLI でサブセット指定可 ([docs.ego-exo4d-data.org][16])
Kinetics-700 DeepMind URL CSV+k700_downloader.sh bash k700_2020_downloader.sh yt-dlp, FFmpeg, 650 GB Academic Torrents ミラーも有 ([GitHub][17])
UCF-101 直接 ZIP(6.5 GB) wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar → 解凍 rar/zip ツール 超小規模・検証用 ([TensorFlow][18])

使い分け早見

  • 外部サイトに依存せず一撃 DL したい → OpenVid, VidGen, HOIGen, VidProM, MiraData
  • URL から自前クロール派 → Panda-70M, WebVid, HD-VILA, VideoCC, HD-VG, LVD
  • コンソーシアム or 申請が必要 → Ego4D, LVD-2M (research-only), 一部 HOIGen
  • ストレージが限られている → VidGen-1M(50 GB), UCF-101(6 GB)でプロトタイピング