📘
旋律の歌唱可能性の定量化に向けた歌唱の正確さの一分析
はじめに
この記事では、卒業研究の『旋律の歌唱可能性の定量化に向けた歌唱の正確さの一分析』における分析手法について簡単に述べます。
分析手法
時間同期
録音データと正解データ(実験で使用した音源)において、開始地点を揃えるようにするためにnumpyのcorrelate関数を用いました。
ノイズ調整
参加者の独自の環境で録音しているため、ノイズが入らないように振幅値を1.0で正規化し、0.01以下の音声はフィルタリングするようにしました。
単位変換
今回の周波数推定は単位がHzになっています。しかし、この単位では半音上がった際にHzでは約1.06倍上がるため、数値として見たときに直感的に分かりにくい。そのため、半音の感覚が100で定義されているcentに置き換えます。
音高調整
実験参加者によって適した音域、実際に歌っているオクターブが異なる可能性があるので、オクターブ違いの音高差に関しては考慮しないようにしました。
歌唱データ全体の音高の一致率
歌唱データ全体におけるcent値の中央絶対誤差(MedAE)を求めます。このMedAEの数値が小さいほど、よく歌えていることを示しています。
おわりに
私の実験では、時間同期に関して歌が上手く歌えてないファイルに関しては、相関が想定と違うところで高まった結果、開始位置が異なったままになってしまいました。もし改善できそうでしたら、ぜひトライしてみてください。
Discussion