🕵🏻♂️
論文要約: ERANNs - 音声タスクにてCNNのアーキテクチャサーチを実施
論文
ERANNs: Efficient Residual Audio Neural Networks for Audio Pattern Recognition
概要
WideResNetをベースにした独自のCNNモデルで手動のアーキテクチャサーチを行い、AudioSetのタギングにおいてCNNのシングルモデルとしてはSOTAを達成(mAP=0.450)。
提案手法の特徴
- imagenetで事前学習したモデルは使わず、フルスクラッチで学習
- Poolingは使わずにStrideの調整でDownsamplingする[1]
- 音圧レベルを調整した改良版Mixup[2]を採用
- 44.1kHzでサンプリング(downsampling時のロスを考慮)
所感
精度の改善に関しては他の論文でうまくいったテクニックを詰め込んだだけ、という感じがしなくもないが、音声タスクでCNNのアーキテクチャの最適化を試みた論文は自分が知る限りこの論文のみ。
なお、サンプリング周波数に44.1kHzを採用しているにもかかわらず、カットオフ周波数は50Hz-14KHzという従来手法[3]と同じ周波数を使用している。論文には「エイリアシングを防ぐため」とあるので、広域側はナイキスト周波数付近(22.05KHz)にしても良さそうだが、14KHzの選択にはどういう意味があるのだろうか?
RAVDESSデータセットにおける感情分析タスクにおいて、pitch shifting[4]というAugmentationを使ってかなり良い精度改善が得られている(Accuraci +3.7-6.2%)。これは「スピーチにしか適用できない」らしいが、動物の鳴き声などにも適用できないだろうか。
Discussion
memo: pytorch.audioにPitchShiftというaugmentationがある。