Open1

音声特徴量について

aGlnYWtpbg==aGlnYWtpbg==

前提知識

音声データのデジタル化

mp3やwavを呼ばれる音声データは、音声のアナログデータを標本化→量子化を行いデジタル化をおこなったもののことを言う。

アナログデータ・・・切れ目の無いデータのこと、アナログ時計を想像するとわかりやすい
デジタルデータ・・・切れ目のあるデータのこと デジタル時計
なぜアナログデータだとだめなのかというと、アナログデータということは無限に値があるということ。
無限に値があると、コンピュータが数値の割当てできない。文字のように数が決まっているデジタルデータであれば、数値でそれぞれの文字を割り当てることができる。

ビット、ヘルツ

  • ビット(bit)・・・量子ビット数のことで、音の大きさを何段階で表すか
  • ヘルツ(Hz)・・・サンプリング周波数(サンプリングレート)、音を一秒間にどれだけ細かくするか

例)8bit, 22.1kHzの音声データ

  • 8bit =2^8=256 段階の音を表すことができる
  • 22.1 kHz =221000 Hz→一秒間の音を22100分割する
    つまり、ビットやヘルツの数値が高いほど音の情報量が多いということ→高音質

wav,mp3

wav

PCM(pulse code modulation)方式でデジタル化された音源フォーマット
PCMが非圧縮のため非常に高音質だが、高音質であればあるほど、サイズが大きくなってしまう。

mp3

圧縮されたデジタル音源フォーマットの一つ

量子化・・・音声波形データをy軸で分割
標本化・・・音声波形データをx軸で分割

フーリエ変換

音声でよく使われる特徴量について

MFCC(メル周波数ケプストラム係数)

MFCCとするのは現実的に扱えそうな次元に落とすため

算出手順

  • 音声信号を適当な長さのフレームで切り出し
  • 窓がけ
  • フーリエ変換して対数振幅スペクトルを求める
  • メルフィルタバンクを掛けて、メル周波数スペクトルを求める
  • 離散コサイン変換により、MFCCを求める

周波数・・・一秒間の波の数
周期・・・波一個何秒かかる?
MFCCは音声認識や音楽ジャンル分類などで使われる特徴量であり、人間の聴覚特性を考慮した周波数スペクトルの概形(包絡線)を表しています。MFCCは楽器音に対しては音色に対応しており、音色が異なるとMFCCの形状は異なることが期待されます。

参考

https://www.motionelements.com/blog/ja/basic-knowledge/wav-mp3
https://qiita.com/kshina76/items/5686923dee2889beba7c
https://www.yukisako.xyz/entry/fourier-transform