Open3ヶ月前にコメント追加3

動画生成に使えそうなデータセット一覧

ディープラーニング

データセット

動画生成

ramu0e

データセット
公開年
規模・内容
キャプション / プロンプト
代表的な解像度
ライセンス・入手方法
特徴・補足


Panda-70M
2024
7 千万クリップ／高解像度
複数教師モデルで抽出した高品質キャプション
720–1080 p
GitHub＋URL (research-only) ([arXiv][1])
HD-VILA から抽出 → 自動選別で“きれいな”字幕付き。汎用 T2V の新定番候補

MiraData
2024
345 Kロング動画（平均30 s）
GPT-4V による階層キャプション＋4視点属性
720–1080 p
HuggingFace（研究目的） ([arXiv][2])
ロングモーション＆強い動き。MiraBench 評価セット同梱

VidGen-1M
2024
100 万クリップ
Coarse-to-Fine で整形した詳細キャプション
720 p+
GitHub / HF (research-only) ([arXiv][3])
時間的整合性の高さを売りにした軽量セット

HOIGen-1M
2025
104 万 HOI 動画
Mixture-of-MM Experts 生成キャプション
512–720 p
申請制（学術） ([arXiv][4])
“人物×物体” 相互作用を網羅。T2V の動作精度ベンチに最適

CFC-VIDS-1M
2025
100 万クリップ
VLM で精緻化したキャプション
720 p
近日公開予定 (Raccoon 論文) ([arXiv][5])
品質重視の 4-段階キュレーション。Raccoon モデルと併用

HD-VG-130M
2023
1.3 億クリップ
自動抽出キャプション
1080 p（ワイド）
GoogleDrive＋ライセンス同意 (academic-only) ([GitHub][6])
VideoFactory 論文が提唱。高解像度＆ワイド比率・WM なし

HowTo100M
2019
1.36 億クリップ／約15 年
自動字幕 (ASR)
480–720 p
Web スクレイプ (YT) ([Papers with Code][7])
“実演系”が中心。音声付きマルチモーダル前訓練の古典

WebVid-10M
2021
1,000 万クリップ
自然文キャプション
720 p まで
URL リスト (stock site)
既存表で紹介済み — デファクト標準

HD-VILA-100M
2022
330 万長尺動画 → 37 万時間
ASR 字幕 & メタ
720 p+
URL (YouTube)
高解像度＆多ジャンル

VideoCC (6.3 M / 12 M)
2022
630〜1,200 万
CC-BY キャプション
480–1080 p
CC-BY-4.0
法的に扱いやすい

OpenVid-1M / HD-0.4M
2024
100 万 / 43 万(HD)
LLM リライト高品質
1080 p
HF (research-only)
軽量かつ高精度

LVD-2M
2024
200 万 (≥10 s)
時間密キャプション
720–1080 p
申請制
ロングホライズン学習

VidProM
2024
167 万プロンプト＋生成動画

生成側 プロンプト
256–1024 p
HF (CC-BY-NC 4.0)
プロンプト工学研究向け

Ego4D / Ego4D-HCap
2021–23
3,670 時間
階層キャプション
960 p
Consortium 承認
主観視点

Kinetics-700
2020
65 万 (10 s)
行動ラベル
320 p
URL (YouTube)
動作多様性

UCF-101
2012
1.3 万
行動ラベル
320 p
直DL
小規模・実験用




 最新セット活用のポイント
Panda-70M × WebVid の 2 段プリトレ
まず WebVid で粗学習 → Panda で高品質ファインチューンが流行。
ロング動画強化は MiraData or LVD-2M
10 s 上限の既存コーパスではカメラワークが貧弱になりがち。
人と物の相互作用を重視するアプリ
HOIGen-1M を追加すると “手元＋道具” の生成精度が向上。
研究コストを抑えたい個人 / スモール GPU
VidGen-1M や OpenVid-1M は 4×A100 程度でも回し切れるサイズ。
高解像・ワイド比率モデルを目指す場合
HD-VG-130M（HD-VG-40M subset）で事前学習、SDXL VAE 併用が有効。

データセット	公開年	規模・内容	キャプション / プロンプト	代表的な解像度	ライセンス・入手方法	特徴・補足
Panda-70M	2024	7 千万クリップ／高解像度	複数教師モデルで抽出した高品質キャプション	720–1080 p	GitHub＋URL (research-only) ([arXiv][1])	HD-VILA から抽出 → 自動選別で“きれいな”字幕付き。汎用 T2V の新定番候補
MiraData	2024	345 Kロング動画（平均30 s）	GPT-4V による階層キャプション＋4視点属性	720–1080 p	HuggingFace（研究目的） ([arXiv][2])	ロングモーション＆強い動き。MiraBench 評価セット同梱
VidGen-1M	2024	100 万クリップ	Coarse-to-Fine で整形した詳細キャプション	720 p+	GitHub / HF (research-only) ([arXiv][3])	時間的整合性の高さを売りにした軽量セット
HOIGen-1M	2025	104 万 HOI 動画	Mixture-of-MM Experts 生成キャプション	512–720 p	申請制（学術） ([arXiv][4])	“人物×物体” 相互作用を網羅。T2V の動作精度ベンチに最適
CFC-VIDS-1M	2025	100 万クリップ	VLM で精緻化したキャプション	720 p	近日公開予定 (Raccoon 論文) ([arXiv][5])	品質重視の 4-段階キュレーション。Raccoon モデルと併用
HD-VG-130M	2023	1.3 億クリップ	自動抽出キャプション	1080 p（ワイド）	GoogleDrive＋ライセンス同意 (academic-only) ([GitHub][6])	VideoFactory 論文が提唱。高解像度＆ワイド比率・WM なし
HowTo100M	2019	1.36 億クリップ／約15 年	自動字幕 (ASR)	480–720 p	Web スクレイプ (YT) ([Papers with Code][7])	“実演系”が中心。音声付きマルチモーダル前訓練の古典
WebVid-10M	2021	1,000 万クリップ	自然文キャプション	720 p まで	URL リスト (stock site)	既存表で紹介済み — デファクト標準
HD-VILA-100M	2022	330 万長尺動画 → 37 万時間	ASR 字幕 & メタ	720 p+	URL (YouTube)	高解像度＆多ジャンル
VideoCC (6.3 M / 12 M)	2022	630〜1,200 万	CC-BY キャプション	480–1080 p	CC-BY-4.0	法的に扱いやすい
OpenVid-1M / HD-0.4M	2024	100 万 / 43 万(HD)	LLM リライト高品質	1080 p	HF (research-only)	軽量かつ高精度
LVD-2M	2024	200 万 (≥10 s)	時間密キャプション	720–1080 p	申請制	ロングホライズン学習
VidProM	2024	167 万プロンプト＋生成動画	生成側プロンプト	256–1024 p	HF (CC-BY-NC 4.0)	プロンプト工学研究向け
Ego4D / Ego4D-HCap	2021–23	3,670 時間	階層キャプション	960 p	Consortium 承認	主観視点
Kinetics-700	2020	65 万 (10 s)	行動ラベル	320 p	URL (YouTube)	動作多様性
UCF-101	2012	1.3 万	行動ラベル	320 p	直DL	小規模・実験用

ramu0e

 主な動画生成データセット──ダウンロード方法早見表


データセット
取得できるもの
公式取得手段 / スクリプト
追加ツール・前提
備考


OpenVid-1M / OpenVidHD-0.4M

.tar 分割ファイル（HuggingFace 直置き）

git lfs install && git clone … もしくは huggingface-cli download／datasets.load_dataset("OpenVid-1M")

Git LFS, 200 GB 以上空き
完全ミラーなので YouTube など外部 DL 不要 ([Hugging Face][1])

Panda-70M
URL & メタ CSV + DL スクリプト
python tools/download.py --config full.yaml

yt-dlp, FFmpeg, 約 36 TB
10 M/2 M の軽量サブセット YAML も同梱 ([snap-research.github.io][2])

MiraData

.parquet 連番（HuggingFace）

datasets.load_dataset("TencentARC/MiraData") で自動ストリーミング
Git LFS, 約 15 TB
ロング動画向け。分割取得可 ([Hugging Face][3])

VidGen-1M
HF ストレージ（zip 50 GB ×20）
huggingface-cli download Fudan-FUXI/VIDGEN-1M
Git LFS
軽量なのでローカル GPU 学習向き ([Hugging Face][4])

HOIGen-1M
HF 分割 tar（約 200 GB）
datasets.load_dataset("HOIGen/HOIGen-1M")
Git LFS
研究オンリーライセンス ([Hugging Face][5])

CFC-VIDS-1M
URL リスト＋β版 DL スクリプト
論文付属 video2dataset 設定ファイルを実行

video2dataset, yt-dlp

2025-Q3 公開予定（現時点は論文のみ） ([GitHub][6])

HD-VG-130M
URL CSV（1.8 GB）＋サンプル CLI
python tools/download_hdvg.py --list hdvg.csv

yt-dlp, Ray, LanceDB
ワイド比率。解像度ごとにフォルダ分割 ([GitHub][7])

HD-VILA-100M
URL list（jsonl）＋ Ray DL スクリプト
python download_hd_vila.py --input meta.jsonl

yt-dlp, ray[default]

Microsoft XPretrain リポに詳細 ([GitHub][8], [Gist][9])

WebVid-10M
Shutterstock/Pond5 URL CSV
video2dataset --url_list webvid_10m.csv …

video2dataset, 商用サイト APIキー不要
失効 URL 自動スキップ機能あり ([GitHub][10], [GitHub][11])

VideoCC (6.3 M/12 M)
CC-BY URL TSV
video2dataset --url_list videocc.tsv
video2dataset
法的に扱いやすく再配布可 ([GitHub][12])

HowTo100M
URL & 字幕 CSV
①フォーム申請→アノテーション取得 ②公式 download_youtube.sh


yt-dlp, 12 TB+
音声付き。失効率高め ([GitHub][13])

LVD-2M
URL CSV＋公式 download_videos_release.py

python download_videos_release.py --out_dir videos

yt-dlp, FFmpeg
≥10 s の長尺のみを自動抽出 ([GitHub][14])

VidProM
HF 直置き（生成動画+prompt）
datasets.load_dataset("WenhaoWang/VidProM")
Git LFS, 5 TB
合成動画なので著作権クリーン ([Hugging Face][15])

Ego4D / Ego4D-HCap
専用 Downloader CLI

pip install ego4d → ego4d-download --token YOUR_KEY

承認キー, ~14 TB
CLI でサブセット指定可 ([docs.ego-exo4d-data.org][16])

Kinetics-700
DeepMind URL CSV＋k700_downloader.sh

bash k700_2020_downloader.sh

yt-dlp, FFmpeg, 650 GB
Academic Torrents ミラーも有 ([GitHub][17])

UCF-101
直接 ZIP（6.5 GB）

wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar → 解凍
rar/zip ツール
超小規模・検証用 ([TensorFlow][18])




 使い分け早見

外部サイトに依存せず一撃 DL したい → OpenVid, VidGen, HOIGen, VidProM, MiraData

URL から自前クロール派 → Panda-70M, WebVid, HD-VILA, VideoCC, HD-VG, LVD

コンソーシアム or 申請が必要 → Ego4D, LVD-2M (research-only), 一部 HOIGen

ストレージが限られている → VidGen-1M（50 GB）, UCF-101（6 GB）でプロトタイピング

データセット	取得できるもの	公式取得手段 / スクリプト	追加ツール・前提	備考
OpenVid-1M / OpenVidHD-0.4M	`.tar` 分割ファイル（HuggingFace 直置き）	`git lfs install && git clone …` もしくは `huggingface-cli download`／`datasets.load_dataset("OpenVid-1M")`	Git LFS, 200 GB 以上空き	完全ミラーなので YouTube など外部 DL 不要 ([Hugging Face][1])
Panda-70M	URL & メタ CSV + DL スクリプト	`python tools/download.py --config full.yaml`	`yt-dlp`, FFmpeg, 約 36 TB	10 M/2 M の軽量サブセット YAML も同梱 ([snap-research.github.io][2])
MiraData	`.parquet` 連番（HuggingFace）	`datasets.load_dataset("TencentARC/MiraData")` で自動ストリーミング	Git LFS, 約 15 TB	ロング動画向け。分割取得可 ([Hugging Face][3])
VidGen-1M	HF ストレージ（zip 50 GB ×20）	`huggingface-cli download Fudan-FUXI/VIDGEN-1M`	Git LFS	軽量なのでローカル GPU 学習向き ([Hugging Face][4])
HOIGen-1M	HF 分割 tar（約 200 GB）	`datasets.load_dataset("HOIGen/HOIGen-1M")`	Git LFS	研究オンリーライセンス ([Hugging Face][5])
CFC-VIDS-1M	URL リスト＋β版 DL スクリプト	論文付属 `video2dataset` 設定ファイルを実行	`video2dataset`, `yt-dlp`	2025-Q3 公開予定（現時点は論文のみ） ([GitHub][6])
HD-VG-130M	URL CSV（1.8 GB）＋サンプル CLI	`python tools/download_hdvg.py --list hdvg.csv`	`yt-dlp`, Ray, LanceDB	ワイド比率。解像度ごとにフォルダ分割 ([GitHub][7])
HD-VILA-100M	URL list（jsonl）＋ Ray DL スクリプト	`python download_hd_vila.py --input meta.jsonl`	`yt-dlp`, `ray[default]`	Microsoft XPretrain リポに詳細 ([GitHub][8], [Gist][9])
WebVid-10M	Shutterstock/Pond5 URL CSV	`video2dataset --url_list webvid_10m.csv …`	`video2dataset`, 商用サイト APIキー不要	失効 URL 自動スキップ機能あり ([GitHub][10], [GitHub][11])
VideoCC (6.3 M/12 M)	CC-BY URL TSV	`video2dataset --url_list videocc.tsv`	`video2dataset`	法的に扱いやすく再配布可 ([GitHub][12])
HowTo100M	URL & 字幕 CSV	①フォーム申請→アノテーション取得 ②公式 `download_youtube.sh`	`yt-dlp`, 12 TB+	音声付き。失効率高め ([GitHub][13])
LVD-2M	URL CSV＋公式 `download_videos_release.py`	`python download_videos_release.py --out_dir videos`	`yt-dlp`, FFmpeg	≥10 s の長尺のみを自動抽出 ([GitHub][14])
VidProM	HF 直置き（生成動画+prompt）	`datasets.load_dataset("WenhaoWang/VidProM")`	Git LFS, 5 TB	合成動画なので著作権クリーン ([Hugging Face][15])
Ego4D / Ego4D-HCap	専用 Downloader CLI	`pip install ego4d` → `ego4d-download --token YOUR_KEY`	承認キー, ~14 TB	CLI でサブセット指定可 ([docs.ego-exo4d-data.org][16])
Kinetics-700	DeepMind URL CSV＋`k700_downloader.sh`	`bash k700_2020_downloader.sh`	`yt-dlp`, FFmpeg, 650 GB	Academic Torrents ミラーも有 ([GitHub][17])
UCF-101	直接 ZIP（6.5 GB）	`wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar` → 解凍	rar/zip ツール	超小規模・検証用 ([TensorFlow][18])

ramu0e