Closed2

顔認証用のデータセット

bilzardbilzard

概要

ArcFace[1]の論文でモデルの訓練および評価に利用されているデータセットについてリストを作る。

データセットのリスト

表1. ArcFace[1]で利用された訓練・評価用データセット: (D)と表記されたものはDistractorを表す。執筆時点(2023年10月20日)で利用できないものについては打ち消し線で示す。

Datasets #Identity #Image/Video
CASIA [2] 10K 0.5M
VGG2 [3] 9.1K 3.3M
MS1MVO [4] 100K 10M
MS1MV3 [5] 93K 5.1M
Celeb500K [6] 500K 50M
IBUG-500K 493K 11.96M
LFW [7] 5,749 13,233
YTF [8] 1,595 3,425
CFP-FP [9] 500 7,000
CPLFW [10] 5,749 11,652
AgeDB [11] 568 16,488
CALFW [12] 5,749 12,174
MegaFace [13] 530 1M (D)
IJB-B 1,845 76.8K
IJB-C [14] 3,531 148.8K
LFR2019-Image [5] 5.7K 1.58M(D)
LFR2019-Video [5] 10K 200K

各データセットの利用状況について

実在の人間の顔画像はプライバシーに懸念のある生体情報ということもあり、利用に制限があるものもある。

例えば、MS-Celeb-1M(MS1M)については[4]によれば、「(顔認証用データセットに関するプライバシー上の懸念を報告した)Financial Timesの記事[15]を受け、Microsoftは2019年5月以降これらのデータセットの公開を停止した」。IJB-Cについても同じ記事を理由として公開を停止している[14]。

MegaFaceは「99%のベンチマークを既に達成しており、プラットフォームのメンテナンスコストに見合わないためデータセットの公開を閉鎖する」としている[13]。

VGGFace2は明確な理由は明らかにせずに公開を停止している[3]。

Reference

このスクラップは2023/10/20にクローズされました