論文要約: PANNs - 音声タスクのための汎用事前学習済みモデル
論文
PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
概要
従来の研究では小規模なdatasetを使ったものが主流であり、大規模な重みを持つニューラルネットワークの効果を十分に検証できなかった。本論文ではYouTubeからダウンロードした大規模なdatasetを使ってCNNの重みを学習し、従来の提案手法を上回る性能を発揮した(mAP=0.439)。
提案手法の特徴
- AudioSet[1]というYouTubeからダウンロードしたデータを元に作成した大規模なデータセット(1.9M clips、527 classes)を利用して学習
- 従来使われてきたmel-spectrogramに加え、wavegramという波形ベースの特徴量を入力として加える
- 転移学習においても有効性を示す。6つ中3つの下位タスクでSOTAを達成
Wavegram
Wavegramとは、波形データから1d CNNを使ってfrequency divisionの特徴を抽出したもの。
最終的にmel spectrogramの特徴と結合してネットワークの入力とする。
なお、本論文では1d-CNNにおいてResidual Networkを提案していることも特筆すべき。
1d-CNN単体モデルとしてもSOTAを達成(mAP=0.389)。
その他特筆すべき点
他には、Augmentation(Mixup, SpecAugment[2])の効果, embeddingの次元、class balancing, サンプルレートなど、広範にablationを行なっているのも特徴。
提案手法のパフォーマンスについて
本論文では、mel-spectrogramの量子化数64を採用し、mAP=0.394を達成しているが、実は量子化数128の場合はmAP=0.442を達成している。しかもこの設定ではWavegramの特徴を用いていないため、ベストなパフォーマンスはさらに高いと思われる。
後続の提案手法では量子化数128を採用している場合がほとんどであり、本手法と比較する際は注意が必要である。
所感
1d-CNNベースのモデルは周波数領域の情報が不足しているため、mel spectrogramには遠く及ばない。今回提案されたWavegramでは時間領域の入力からCNNの学習によって周波数領域の特徴を学習しているため、既存の1d-CNNよりも高いパフォーマンスを実現した。
一方で、パフォーマンスの大部分はまだmel spectrogramというhuman sourcedな特徴に依存しているため、audio専用のモデルと呼ぶにはまだ発展途上と感じた。
Discussion