🦋
論文要約: AST - Vision Transformerの音声タスクへの適用
論文
AST: Audio Spectrogram Transformer
概要
CNNの上にattention moduleを付け足したハイブリッドなモデルが既存であるのに対し、本論文ではConvolutionなしのpureなtransformerのモデルを提案する。
提案手法の特徴
可変長入力に対応したことはモデルの汎用性という意味では特筆すべきである。
提案手法のパフォーマンス
AudioSetにおける音声タギングのタスクにてSOTAを達成(mAP=0.485)。
SOTAといってもmAPに寄与したのはほとんどweight averagingとensembleであることに注意。single modelのmAPは0.448。
また、mel-spectrogramの量子化数が128であるが、これはPANNs[3]において同じ量子化数で0.442を達成しているため、シングルモデルで見ると実はdrasticな改善ではない。
Discussion