Open9
ピアノ採譜AIについて
ピン留めされたアイテム
なんとなく作りたくなった
既存の研究
いろいろあるよー
Onsets and Frames
Onsets(各音符の開始位置)とFrames(音符が存在するすべてのフレーム)を別タスクに分けて検出することで精度が大幅に上がったらしい。
同じ音符が続けて存在するみたいな状況をFramesの予測で制限できるから精度が上がったのかな?
hFT-Transformer
Sonyの人たちが提案したやつ。音を周波数(音の高さ)軸と時間軸にtransformerを重ねることで正確に識別できるようになった。 後でもう少し詳しく見てみる
MT3
とりあえずtransformersはすごいんだよ
T5を転移学習してMIDI-like tokenを予測させている
Transkun (Semi-CRF)
ただマルコフモデル周りはあんまりわかってないので下にメモを続ける
MIDIのトークン化手法
主にtransformerで使うための手法たち いろいろなトークン形式がある
Audioのトークン化
ちなみに、音声の方はどの手法を見てもLog-Mel Spectgramに変換してViTに通すなりなんなりしている。whisperとかもそうなっていた気がする。
Log-Mel Spectgramにすると人間の可聴域をいい感じに処理できるらしい。
データセット
MAESTRO
約200時間のMIDIとその音源がペアになったデータセット。サステインペダルの情報もあった
GiantMIDI-Piano
bytedanceのpiano-transcriptを使って採譜したもの。精度がどうなのかとかは見れていない。