音声認識

メル尺度
信号の周波数を対数変換したものです。
人間は低周波数の音の違いは判別できますが、高周波数の違いを判別することが困難と言われています。
メル尺度の差は、人間が感じる音高の差と同じです。
音声サンプリング
標本化(サンプリング)
アナログ信号から、一定の時間間隔を区切ってデータを採取することです。
1秒間に採取するデータを「標本化周波数(サンプリング周波数)」と呼び、Hzという単位で表します。
1秒間に1回だと、1Hzになります。
CDのサンプリング周波数は44.1kHzであり、1秒間に44,100回のデータ採取を行っています。
量子化
標本化で採取したデータを数値にすることです。
この数値の大きさを量子化ビット数と呼びます。
符号化
量子化で得られた数値を0、1のデジタルデータに変換することです
フーリエ変換
非周期的な波形に、どのような周波数成分(Hz)がどの程度の大きさ(振幅)で含まれるかを知る手法です。
非周期信号に含まれる①周波数成分と②振幅がわかります。
短時間フーリエ変換
フーリエ変換において、時間成分を知るために音声波形の範囲(時間)を重複部分のある短いスライスに分けてフーリエ変換を行うことです。
短時間フーリエ変換のイメージ
スペトログラム
短時間フーリエ変換の結果を描画したものです
横軸に周波数、縦軸に振幅をとったグラフ
昔のCDコンポのグラフィックエコライザーですね。
CTC(Connectioonist Temporal Classification)
音声認識におけるラベル付の問題を解消する方法として考案された学習方法です。
音声認識における学習においても「音声の何ミリ秒から何ミリ秒までが"a"という文字に対応する」といったアノテーションが必要になりますが、音声の場合、アノテーション自体が難しい=コストが高いだけでなく、曖昧性や非決定性といった課題があります。
こうした課題に対し、ラベル系列(文字系列)を直接学習する方法としてCTCがあみだされました。
学習アルゴリズム
動的計画法 の一つである、前向きアルゴリズム・後ろ向きアルゴリズムを使用します。