📢
論文要約: Kaggle コンペ "Freesound Audio Tagging 2019" のベースラインモデル
論文
Audio tagging with noisy labels and minimal supervision
概要
Kaggle コンペ "Freesound Audio Tagging 2019"[1] にて、ホストが用意したベースラインモデル[2]について説明した論文。
コンペの特徴
- AudioSetと同様の音声マルチタギングのタスク
- ラベルが不正確だがサンプル数が多いデータセット(noisy train)とラベルが正確だがサンプル数が少ないデータセット(curated train)の2つが与えられている。それぞれデータソースも異なる。また、評価用ラベルはcrated trainと同じデータソースから作成。
- コンペティションのメトリクスにlωlrap("lol wrap"と発音)という予測のランクに基づいた指標が採用されている
- カーネルコンペだが、ノートブックの制限時間が1時間と現在よりもかなり短い
ベースラインモデルの特徴
- ノートブックの制限時間に収まるように、MobileNet v1をベースにしたパラメータ数の小さい予測モデルを採用
- ラベルノイズに対応するために、dropoutとlabel smoothing[3]を採用
- 2種類のデータソースのドメインシフトに対応するため、最初noisy trainで表現を学習した後で、curated trainでファインチューン
- Augmentationは利用せず
- 外部データを使った事前学習は利用せず
モデルのパフォーマンス
private LB=0.546。参考として、1st placeのモデル[4]がprivate LB=0.75980。
Discussion