🍳

論文要約: PANNs - 音声タスクのための汎用事前学習済みモデル

2022/03/02に公開

論文

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

概要

従来の研究では小規模なdatasetを使ったものが主流であり、大規模な重みを持つニューラルネットワークの効果を十分に検証できなかった。本論文ではYouTubeからダウンロードした大規模なdatasetを使ってCNNの重みを学習し、従来の提案手法を上回る性能を発揮した(mAP=0.439)。

提案手法の特徴

  1. AudioSet[1]というYouTubeからダウンロードしたデータを元に作成した大規模なデータセット(1.9M clips、527 classes)を利用して学習
  2. 従来使われてきたmel-spectrogramに加え、wavegramという波形ベースの特徴量を入力として加える
  3. 転移学習においても有効性を示す。6つ中3つの下位タスクでSOTAを達成

Wavegram

Wavegramとは、波形データから1d CNNを使ってfrequency divisionの特徴を抽出したもの。
最終的にmel spectrogramの特徴と結合してネットワークの入力とする。

なお、本論文では1d-CNNにおいてResidual Networkを提案していることも特筆すべき。
1d-CNN単体モデルとしてもSOTAを達成(mAP=0.389)。

その他特筆すべき点

他には、Augmentation(Mixup, SpecAugment[2])の効果, embeddingの次元、class balancing, サンプルレートなど、広範にablationを行なっているのも特徴。

提案手法のパフォーマンスについて

本論文では、mel-spectrogramの量子化数64を採用し、mAP=0.394を達成しているが、実は量子化数128の場合はmAP=0.442を達成している。しかもこの設定ではWavegramの特徴を用いていないため、ベストなパフォーマンスはさらに高いと思われる。
後続の提案手法では量子化数128を採用している場合がほとんどであり、本手法と比較する際は注意が必要である。

所感

1d-CNNベースのモデルは周波数領域の情報が不足しているため、mel spectrogramには遠く及ばない。今回提案されたWavegramでは時間領域の入力からCNNの学習によって周波数領域の特徴を学習しているため、既存の1d-CNNよりも高いパフォーマンスを実現した。
一方で、パフォーマンスの大部分はまだmel spectrogramというhuman sourcedな特徴に依存しているため、audio専用のモデルと呼ぶにはまだ発展途上と感じた。

脚注
  1. https://research.google.com/audioset/ ↩︎

  2. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition ↩︎

GitHubで編集を提案

Discussion