Open1
音声特徴量について
前提知識
音声データのデジタル化
mp3やwavを呼ばれる音声データは、音声のアナログデータを標本化→量子化を行いデジタル化をおこなったもののことを言う。
アナログデータ・・・切れ目の無いデータのこと、アナログ時計を想像するとわかりやすい
デジタルデータ・・・切れ目のあるデータのこと デジタル時計
なぜアナログデータだとだめなのかというと、アナログデータということは無限に値があるということ。
無限に値があると、コンピュータが数値の割当てできない。文字のように数が決まっているデジタルデータであれば、数値でそれぞれの文字を割り当てることができる。
ビット、ヘルツ
- ビット(bit)・・・量子ビット数のことで、音の大きさを何段階で表すか
- ヘルツ(Hz)・・・サンプリング周波数(サンプリングレート)、音を一秒間にどれだけ細かくするか
例)8bit, 22.1kHzの音声データ
-
段階の音を表すことができる8bit =2^8=256 -
→一秒間の音を22100分割する22.1 kHz =221000 Hz
つまり、ビットやヘルツの数値が高いほど音の情報量が多いということ→高音質
wav,mp3
wav
PCM(pulse code modulation)方式でデジタル化された音源フォーマット
PCMが非圧縮のため非常に高音質だが、高音質であればあるほど、サイズが大きくなってしまう。
mp3
圧縮されたデジタル音源フォーマットの一つ
量子化・・・音声波形データをy軸で分割
標本化・・・音声波形データをx軸で分割
フーリエ変換
音声でよく使われる特徴量について
MFCC(メル周波数ケプストラム係数)
MFCCとするのは現実的に扱えそうな次元に落とすため
算出手順
- 音声信号を適当な長さのフレームで切り出し
- 窓がけ
- フーリエ変換して対数振幅スペクトルを求める
- メルフィルタバンクを掛けて、メル周波数スペクトルを求める
- 離散コサイン変換により、MFCCを求める
周波数・・・一秒間の波の数
周期・・・波一個何秒かかる?
MFCCは音声認識や音楽ジャンル分類などで使われる特徴量であり、人間の聴覚特性を考慮した周波数スペクトルの概形(包絡線)を表しています。MFCCは楽器音に対しては音色に対応しており、音色が異なるとMFCCの形状は異なることが期待されます。
参考