🦋

論文要約: AST - Vision Transformerの音声タスクへの適用

2022/03/03に公開

論文

AST: Audio Spectrogram Transformer

概要

CNNの上にattention moduleを付け足したハイブリッドなモデルが既存であるのに対し、本論文ではConvolutionなしのpureなtransformerのモデルを提案する。

提案手法の特徴

学習時間の短縮のため ViT^[1], DeiT^[2]にてImage Netで学習した重みを流用
Positional Embeddingを内挿することで可変長の入力に対応。かつ既存の重みも流用

可変長入力に対応したことはモデルの汎用性という意味では特筆すべきである。

提案手法のパフォーマンス

AudioSetにおける音声タギングのタスクにてSOTAを達成(mAP=0.485)。
SOTAといってもmAPに寄与したのはほとんどweight averagingとensembleであることに注意。single modelのmAPは0.448。
また、mel-spectrogramの量子化数が128であるが、これはPANNs^[3]において同じ量子化数で0.442を達成しているため、シングルモデルで見ると実はdrasticな改善ではない。

脚注

GitHubで編集を提案

論文

概要

提案手法の特徴

提案手法のパフォーマンス

Discussion