Closed2
顔認証用のデータセット

概要
ArcFace[1]の論文でモデルの訓練および評価に利用されているデータセットについてリストを作る。
データセットのリスト
表1. ArcFace[1]で利用された訓練・評価用データセット: (D)と表記されたものはDistractorを表す。執筆時点(2023年10月20日)で利用できないものについては打ち消し線で示す。
Datasets | #Identity | #Image/Video |
---|---|---|
CASIA [2] | 10K | 0.5M |
|
9.1K | 3.3M |
|
100K | 10M |
|
93K | 5.1M |
Celeb500K [6] | 500K | 50M |
IBUG-500K | 493K | 11.96M |
LFW [7] | 5,749 | 13,233 |
YTF [8] | 1,595 | 3,425 |
CFP-FP [9] | 500 | 7,000 |
CPLFW [10] | 5,749 | 11,652 |
AgeDB [11] | 568 | 16,488 |
CALFW [12] | 5,749 | 12,174 |
|
530 | 1M (D) |
1,845 | 76.8K | |
|
3,531 | 148.8K |
LFR2019-Image [5] | 5.7K | 1.58M(D) |
LFR2019-Video [5] | 10K | 200K |
各データセットの利用状況について
実在の人間の顔画像はプライバシーに懸念のある生体情報ということもあり、利用に制限があるものもある。
例えば、MS-Celeb-1M(MS1M)については[4]によれば、「(顔認証用データセットに関するプライバシー上の懸念を報告した)Financial Timesの記事[15]を受け、Microsoftは2019年5月以降これらのデータセットの公開を停止した」。IJB-Cについても同じ記事を理由として公開を停止している[14]。
MegaFaceは「99%のベンチマークを既に達成しており、プラットフォームのメンテナンスコストに見合わないためデータセットの公開を閉鎖する」としている[13]。
VGGFace2は明確な理由は明らかにせずに公開を停止している[3]。
Reference
- [1] ArcFace: Additive Angular Margin Loss for Deep Face Recognition
- [2] Groundtruth of spliced images in dataset CASIA 2.0 (need to e-mail the author)
- [3] VGGFace2 Dataset (download link no longer available)
- [4] MS-Celeb-1M (MS1M)
- [5] Lightweight Face Recognition Challenge & Workshop (ICCV 2019)
- [6] Celeb-500k
- [7] Labeled Faces in the Wild
- [8] YouTube Faces DB
- [9] Celebrities in Frontal-Profile in the Wild
- [10] Cross-Pose LFW (CPLFW) Database
- [11] AgeDB
- [12] Cross-Age LFW (CALFW) Database
- [13] MegaFace and MF2: Million-Scale Face Recognition
- [14] IARPA Janus Benchmark C
- [15] Who’s using your face? The ugly truth about facial recognition - Financial Times

insightfaceのrepoにリンクされているGoogleDriveから学習に使ったデータはダウンロードできる。
このスクラップは2023/10/20にクローズされました