📘

旋律の歌唱可能性の定量化に向けた歌唱の正確さの一分析

2025/02/07に公開

はじめに

この記事では、卒業研究の『旋律の歌唱可能性の定量化に向けた歌唱の正確さの一分析』における分析手法について簡単に述べます。

分析手法

時間同期

録音データと正解データ(実験で使用した音源)において、開始地点を揃えるようにするためにnumpyのcorrelate関数を用いました。

ノイズ調整

参加者の独自の環境で録音しているため、ノイズが入らないように振幅値を1.0で正規化し、0.01以下の音声はフィルタリングするようにしました。

単位変換

今回の周波数推定は単位がHzになっています。しかし、この単位では半音上がった際にHzでは約1.06倍上がるため、数値として見たときに直感的に分かりにくい。そのため、半音の感覚が100で定義されているcentに置き換えます。

音高調整

実験参加者によって適した音域、実際に歌っているオクターブが異なる可能性があるので、オクターブ違いの音高差に関しては考慮しないようにしました。

歌唱データ全体の音高の一致率

歌唱データ全体におけるcent値の中央絶対誤差(MedAE)を求めます。このMedAEの数値が小さいほど、よく歌えていることを示しています。

おわりに

私の実験では、時間同期に関して歌が上手く歌えてないファイルに関しては、相関が想定と違うところで高まった結果、開始位置が異なったままになってしまいました。もし改善できそうでしたら、ぜひトライしてみてください。

Discussion