Human-Artデータセットの論文を読む
概要
Human-Artデータセットの論文を読んだので気になった点を紹介します。
Human-Artデータセットとは?
画像中の人物のバウンディングボックスやポーズ情報をアノテーションしたデータセットはMSCOCOなど多数ありますが、イラストや壁画、フィギュアの写真などの人工的なものをターゲットにしたデータセットは数が少ないです。既存のそのようなデータセットはデータ数が少なかったり、ポーズ情報が古く使いにくいものになっています。
実写のデータセットで学習したポーズ推定のモデルはイラストでは精度が大きく下がります。これはデータセットが大きく異なっているからです。
Human-Artデータセットは実写とイラストなどの人工的なものを両方とも扱えるようにするためのデータセットです。実写に加えてガレージキット、レリーフ、彫刻、子供の絵、油絵、スケッチ、ステンドグラス、浮世絵、アニメ、デジタルアート、インクペイント、水彩画、生成AIなど多彩な種類の画像を含んでいます。実写のデータもアクロバット、コスプレ、ダンス、ドラマ、映画など多彩なポーズが含まれています。
特徴
データセットは高品質であり、スタイル、著者、出身地、年齢におけるカテゴリー内の多様性が確保されています。また人物に対してキーポイント、バウンディングボックス、セルフコンタクトポイントに手動でアノテーションを行っています。またテキストの説明文も付属します。
データ収集
まず28の画像収集サイトと検索エンジン3つを使って1000Kの画像を集めます。そこから人物を含んでいるもの、高品質な画像のみ200Kを選びます。次に人物がボケている、シンプルなポーズが多い、シーンが混在している画像を削除して50Kを選びます。
Webから収集した画像は説明文が自動で取得されますが、存在しない場合はBLIP-2を使って画像から説明文を生成しています。
アノテーションは35名のアノテーター、12名の監査チームによって行われました。アノテーション開始前に体系的なトレーニングを受けることで高品質なアノテーションをできるようにしました。アノテーションの過程でランダムチェックを行って品質を確認しています。
人物のキーポイントに加えて自己接触ポイントの情報があることも特徴といえます。腰に手を当てている場合、どことどこが接触しているかの情報も持っています。これはポーズから3Dモデルを復元するときなどに有効です。
アノテーション画像の例
多様な種類の画像にアノテーションが行われていることがわかります。
ライセンス
githubのページにライセンスの記載があります。日本語訳するとこのようになっているようです。商用利用は不可能でした。
Under the CC-license, Human-Art is available for download. Fill out this form to request authorization to use Human-Art for non-commercial purposes. After you submit the form, an email containing the dataset will be instantly delivered to you. Please do not share or transfer the data privately.
CCライセンスのもと、Human-Artはダウンロード可能です。非営利目的でのHuman-Artの使用許可を申請するには、このフォームにご記入ください。フォームを送信すると、データセットを含む電子メールが即座に送信されます。データを個人的に共有したり転送したりしないでください。
Discussion