【LOG】ピアノ自動採譜の現状と展望 by ChatGPT
生成系AI技術によるピアノ自動採譜の新たなアプローチ
ピアノの自動採譜(演奏音源からノート音高、発音タイミング、音の長さ、ベロシティを推定し、MIDI等の symbolic データに変換する)は、従来より音楽情報処理の難問として研究されてきました。近年は深層学習によって性能が大きく向上しましたが、それでもFFTやCQTに基づくスペクトログラム解析+CNN/RNNといった枠組みには限界があり、特にポリフォニックな和音の重なりや演奏表現のニュアンスを完璧に捉えるには至っていません (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey) (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey)。
こうした中、**生成系AI技術(GAN、Diffusionモデル、Transformer など)**を応用した新しい手法が模索されており、従来手法の課題を克服できる可能性が注目されています。本稿では、最新の研究動向に基づき、ピアノ自動採譜における生成系AIの未試行アプローチとその潜在力について分析します。
従来手法の限界と課題
従来の自動採譜手法では、入力音響を時間‐周波数表現(FFTやCQTから得たスペクトログラムなど)に変換し、それをフレームごとに解析してどの音高が鳴っているかを判定するアプローチが主流でした (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey) (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey)。
典型的なのはCNN+RNNによるフレーム分類で、例えば Onsets and Framesモデルでは各時間フレームで88鍵それぞれのオン(発音中)/オフを予測し、オンセット検出用のネットワークと組み合わせてノートイベントを推定します (Music Transcription with Transformers)。
しかしこのようなフレームベース・マルチラベル分類では、各フレーム・各音の出力が独立に決定されてしまい、ラベル間の依存関係(音と音の同時発生や和音構造など)が十分考慮されないという限界があります ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)。その結果、ポストプロセスで不整合を修正する必要が生じたり、独立予測ゆえにピアノロール上で音がにじんだような曖昧さ(on/offの不確実領域)が残ったりすることが報告されています (Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model)。
また音価(音の長さ)の決定やベロシティ推定も課題です。従来法ではオンセット検出後に何フレーム継続したかで音の持続時間を決めたり、別個の出力ヘッドでベロシティを回帰推定するものが多く、これらを統合して**「ノートイベント」として整合的に扱えていない**ことが精度上のボトルネックとなります (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview) (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。
さらに、ピアノ特有のペダルによる減衰や共鳴など細かな要素も扱いが難しく、ペダル押下を別途検出する試みもありますが (Music Transcription with Transformers)、完全には解決していません。総じて、従来モデル(FFT/CQT+CNN/RNN)は 設計がドメイン固有(ピアノの打鍵音に合わせたネットワーク構造や出力設計が必要)で汎用性に欠ける上、各要素を個別に最適化するため音符間の相関や文脈を活かしきれないという課題があります ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription) (Music Transcription with Transformers)。
GAN・Diffusion・Transformerを用いた新手法
近年の生成系AIブームを背景に、データの生成モデルとして成功を収めた技術を自動採譜にも応用し、上記課題を克服しようとする研究が増えています。代表的なものとして Transformer(自己注意)モデル、Diffusion(拡散)モデル、**GAN(敵対的生成ネットワーク)**を活用した手法が挙げられます。
-
Transformer型モデル(シーケンス変換):
Transformerは本来自然言語処理で開発されたシーケンスモデルですが、音楽でも音符列を一種の「言語」とみなして扱うことができます。Google Magentaチームはスペクトログラムを入力シーケンス、MIDI形式のノートイベント列を出力シーケンスとするTransformerのエンコーダ・デコーダモデルを構築し、自動採譜を翻訳タスクとして学習させました (Music Transcription with Transformers)。
興味深いことに、この汎用的なTransformerでも従来の専用設計したCNN/RNNモデルに匹敵する精度が出せることが示され、精度指標(オンセット・オフセット・ベロシティを考慮したノートF1値)で既存の最先端モデルを上回る結果も報告されています (Music Transcription with Transformers)。
例えばHawthorneらのモデルでは、MAESTROデータセットで従来手法(オンセット&フレーム+ベロシティ)を上回る F1スコア82.2 を達成し、オフセットやベロシティを含むノート検出精度で当時のSOTAを更新しました (Music Transcription with Transformers)。
Transformerによるアプローチは、音符の時間的文脈や同時発音の関係を自己注意機構で捉えられる点が利点です。従来は手作業で実装していた「音楽的文法」の知識をモデル自体が学習し、整合的な音符列を出力できるため、フレームごと独立だった問題が緩和されます ([2107.09142] Sequence-to-Sequence Piano Transcription with Transformers) (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。
さらに、一度この枠組みを作れば出力語彙(ボキャブラリ)を変えるだけで別タスクにも転用でき、ピアノ以外の楽器やドラムなどにも対応しやすい汎用性も示されています (Music Transcription with Transformers)。
実際、Transformerを時間軸上のエンコーダとして使いベロシティ推定精度を向上したとの報告や、LSTMよりTransformerに置き換えた方が性能向上した例もあり ()、ピアノ採譜でも長短期の依存関係学習にTransformerは有効だと考えられます。
(Music Transcription with Transformers) 図: トランスフォーマーを用いたピアノ自動採譜モデルの概略 (Music Transcription with Transformers)。入力音声からスペクトログラムを計算しエンコーダに与える。デコーダは時間(<time>)、ベロシティ(<vel>)、音高(<pitch>)などのトークンを順次出力し、最終的にMIDI形式のノートイベント列を生成する。このシーケンス生成型モデルにより、従来は個別に扱っていた音の発生・継続・強弱を統合的に推定できる。
-
Diffusionモデル(拡散モデル):
Diffusionモデルは近年画像生成などで注目される生成モデルで、ランダムノイズからデータを徐々に洗練していく枠組みです。これを自動採譜に応用したのが Sony の提案した DiffRoll や後続の D3RM などの手法です (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities) ()。DiffRollでは、ピアノロール(時間×音高の二次元配列で音の有無を表す)を**「生成すべき画像」**とみなし、入力のスペクトログラムに条件付けてランダムノイズからリアルなピアノロールを生成するよう訓練します (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities)。
これは従来のような判別的マッピングではなく**「条件付き生成タスク」として採譜を定式化するもので、モデルに音符間の同時発生や制約を自ら学習させる**ことが可能です (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities) ()。
DiffRollは分類器を用いない拡散モデル(classifier-free guidance)を採用しており、音声と楽譜データのペアがない場合でも楽譜データ単体で事前学習できる点も特徴です (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities)。実験では、同じネットワーク構造で判別的に訓練したモデルより19ポイントも高いノートF1を達成し、既存の類似手法を上回る成果を示しています (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities)。
ただし初期のDiffRollでは簡略化のためベロシティ情報を出力に含めておらず、音符のオン・オフのみで評価しています ([2210.05148] DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability)(今後の拡張課題)。その後の研究では、この拡散モデルを既存モデルの出力を精錬する二段階目に位置付け、より高精度化する試みも現れました。例えば D3RM(2025年)では、まず通常の音響モデル(CNNベース)で得た初期ピアノロール予測を入力として、離散拡散モデルで段階的にノイズ除去しながらピアノロールを洗練します ()。
この方法により、最終的な各ノートの予測に他のノートの状況を考慮できるようになり、従来のフィードフォワード型(各ノート独立予測型)よりも整合的な結果が得られると報告されています ()。D3RMはMAESTROデータセットで拡散モデル単独や従来ベースラインを上回る最高のF1を達成しており ()、拡散モデルのノート間相互作用のモデル化能力が自動採譜に有効であることを裏付けています。
-
GAN(敵対的生成ネットワーク)によるアプローチ:
GANは生成モデル(ジェネレータ)と判別モデル(ディスクリミネータ)を競わせることで出力のリアリティを高める手法です。自動採譜分野でも、出力のピアノロールをより「本物らしく」するためにGAN的な学習を取り入れた例があります。Kim & Bello (2019) の研究では、Onsets and Framesモデルで得た出力時間‐周波数表現(ピアノロール状の確率分布)を「偽物」、正解データを**「本物」として判別器を訓練し、ジェネレータ(採譜モデル)は判別器をだませるよう出力を洗練する敵対的学習**を導入しました ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)。このAdversarial Learningによりフレームレベル・ノートレベル双方の誤検出が減少し、Onsets and Framesベースラインに対してF値改善が得られています ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)。特に、多重和音の同時検出や弱いオンセットの検出率向上に効果があったと報告されており、ネットワークが出力全体の一貫性や音楽的妥当性を学習できたと考えられます ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)。
GAN自体を直接「音声→楽譜」変換の生成器として使う研究は多くありませんが、判別器による出力のグローバルな制約付けという形で自動採譜精度を高めた本手法は、生成的発想の有用性を示しています。将来的には、条件付きGANで「入力スペクトログラム→ピアノロール」の生成を行い、判別器がその組み合わせの自然さ(一致度合い)を評価するようなモデルも考案の余地があります(未試行の段階です)。実際、前述の拡散モデルのアプローチとGANのアイデアを組み合わせたハイブリッド手法によって、拡散モデルの逐次処理を高速化しつつ出力の整合性を保つ研究も今後期待されます。
ピアノ音源に特化した最新研究動向
自動採譜の中でもピアノは88鍵の広い音域と複雑な和音構造を持つため、主要な研究対象となってきました。ピアノ専用の高品質ペアデータセットである MAESTRO (Music Transcription with Transformers)の公開以降、ディープラーニングによる精度向上が著しく、現在ではいくつかの手法がノートF1スコア90%以上を達成する段階に至っています () ()。最新の動向としては、Transformerを更に工夫した階層構造や確率的なイベント予測モデルなどが登場しています。
-
階層型Transformerと長時間依存関係の活用:
2023年の ISMIR会議では、周波数軸と時間軸の双方で自己注意を行う**階層的周波数‐時間Transformer(hFT-Transformer)**が提案されました ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)。このモデルではまず時間軸方向に畳み込みで局所特徴を捉えつつ、周波数軸(音高軸)方向にTransformerエンコーダを適用して和音中の倍音構造を詳細に捉えます。その上で周波数→時間の次元変換デコーダを経て、最後に時間軸方向のTransformerエンコーダでもう一度文脈を捉える二段構えの構造になっています ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)。
結果として、ピアノ音源に特化したきめ細かな周波数解像度と長時間の文脈把握を両立し、MAPSやMAESTROデータでフレームレベル、ノート+オフセット、ノート+オフセット+ベロシティ全ての指標でSOTAを達成しています ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)。
これはオンセット・オフセット時刻の精密化に大きく寄与しており、ペダルによる音の減衰なども含め高精度に捉えられることを示しました。
-
イベントベース(記号単位)推定へのシフト:
従来はフレーム単位でラベル推定→連結という手順でしたが、最新研究でははじめから「ノートイベント(開始時刻+終了時刻+音高)」を直接推定する手法も試みられています (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。Yanら(2021)は**Semi-CRF(半マルコフ条件付き確率場)**による手法で、音の開始・終了のペアを一つの状態区間としてスコア化し、録音全体から最適なノート集合を抽出しました (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。
このアプローチではフレーム毎のばらばらの予測を繋ぐ必要がなく、最終的な楽譜に直結する形でモデルが学習します。その結果、MAESTROデータで既存のディープラーニング手法を上回る精度を示しながら、モデルの計算量も抑えられることが報告されています (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。
このようなイベント指向の手法は、ピアノの高速な音階や装飾音などフレームでは捉えにくい要素にも有利であり、今後TransformerやDiffusionと組み合わせて発展する可能性があります。
-
ピアノならではの表現要素への対応:
最新の研究では、ピアノ特有の表現をどこまで捉えられるかも重視されています。例えばサステインペダルの検出と扱いです。ペダルが踏まれると複数の音が減衰せず重なり続けるため、通常のオンセット/オフセット検出を乱す要因になります。これに対し、Kongら(2020)はペダル踏み込みとリリースを検出する出力をネットワークに追加し、ペダル状態を考慮して減衰をモデル化する高解像度採譜を実現しました (High-resolution Piano Transcription with Pedals by Regressing ...)。
また同研究ではオンセット・オフセット時刻をフレームより細かい単位で直接回帰予測することでミリ秒単位の精密なタイミングを得ており、人手の楽譜と遜色ない精度で音価を再現しています (High-resolution Piano Transcription with Pedals by Regressing ...)。
ベロシティ(音の強さ)についても、データセット間で基準のばらつきがある問題を指摘しつつ、マルチタスク学習で一貫性を持たせる試みがなされています (Music Transcription with Transformers)。
Transformerモデルでは出力トークンにベロシティ情報を含めて学習させることで、従来別ヘッドで予測していた場合に比べ精度向上が報告されています (Music Transcription with Transformers) ()。
このように、最新のピアノ専用研究は演奏表現の細部(ペダル、音価揺れ、音量変化)まで捉える方向に進んでおり、生成系モデルも含めた高度化によって自動採譜結果がより実演に忠実なものになりつつあります。
ノート・ベロシティ・持続時間の精度向上策
自動採譜の評価指標として、ノート(音高+オンセット)、ノート+オフセット、ノート+オフセット+ベロシティそれぞれのF値が用いられます ()。
特に後者の「完全なノートイベント」の精度を上げるには、音の開始・終了と強さを統合的に予測する工夫が重要です。最新手法で取られているアプローチや今後有望な策をいくつか挙げます。
-
マルチタスクから統合へ: 従来はオンセット検出用CNN、フレーム継続検出用RNN、ベロシティ回帰といったように別々に最適化して組み合わせていましたが、近年はこれを単一モデルで一括予測する方向に進んでいます (Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model)。
-
Kwonら(2020)の提案した多状態ソフトマックス出力では、各フレームで「オフ」「オンセット」「サステイン(保持)」「オフセット」など音の状態をまとめて分類することで、一貫したノート検出が可能になりました (Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model)。このモデルはオート回帰的に前フレームの状態を踏まえて次を予測するため、音価の整合性が高まりブレの少ないピアノロールが得られます (Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model)。
結果としてパラメータ数削減しつつSOTA級の精度に肉薄する性能を示しており (Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model)、音価推定の信頼性向上につながっています。 -
シーケンスモデルによるイベント予測: 前述のTransformerやSemi-CRFのように、音符開始と終了をペアで扱うシーケンスベース手法は、開始と終了の対応付けミスを減らし、音の長さを直接的に出力できる利点があります (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview) (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)。
フレームごとのオンオフを後処理で繋ぐ従来法では、オンセットは検出できてもオフセットが曖昧で延音ペダルの影響で誤った長さになることがありました。イベントベース推定ではそれが改善され、結果的にノート持続時間のF1スコア(Note with Offset)が向上しています ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)。実際、階層型Transformer (hFT) やSemi-CRFベースの手法はいずれもノート+オフセットで90%以上のF1を達成しており ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)、音符の開始終了を適切にペアリングできていることを示します。 -
高時間解像度と物理的整合性: 音価推定の精度向上には、モデルがフレームの壁を超えて精密なタイミングを捉えられることも重要です。上述の高解像度手法では、オンセット・オフセットをフレームではなく連続時間値として回帰しました (High-resolution Piano Transcription with Pedals by Regressing ...)。これにより、たとえば音の減衰が途中で止まったり他音にマスキングされて聴こえなくなる場合でも、人間の楽譜のように「本来の音長」を推定できます。同様に、出力した楽譜が物理的に妥当か(例えば鍵盤数を超える同時押下がないか、音が不自然に途切れていないか)をチェック・補正する仕組みも有用です。GANの判別器的な役割で、出力MIDIを検証してフィードバックを与えるネットワークを組み込めば、音符の過不足や不自然な長さ・強さを学習段階で是正できます ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)。
-
ベロシティ(音量)推定の改善: ベロシティは演奏表現の肝ですが、音響的に推定するのは難しい要素です。同じ音符でもタッチによるスペクトル違いや録音条件の差があり、教師データ自体が不正確な場合もあります (Music Transcription with Transformers)。そのためTransformerモデルの一部では、あえてベロシティを出力から除外しまず音符検出に特化させた例もあります (Music Transcription with Transformers)(その上で別途モデルでベロシティ推定)。しかし理想的には音符検出と同時にベロシティも正確に推定できることが望ましく、現在はマルチタスク学習や注意機構による音量特徴の抽出でこれを改善する研究が進んでいます ()。例えばOuらの研究では時間軸方向にTransformerエンコーダを用いることでベロシティ推定が向上したと報告されています ()。今後はデータセット間でバラバラだったベロシティの基準を統一し、大規模学習でモデルに音量と音楽表現の相関を学習させることで、更なる精度向上が見込まれます。
未試行のアイデアと今後の展望
最後に、現在考えられる未踏のアプローチや実験的な試みについて展望します。生成系AI技術の柔軟性を活かせば、ピアノ自動採譜の新たなブレークスルーが期待できます。
-
差分駆動型「分析-合成」ループの導入: いわゆるanalysis-by-synthesisの考え方で、モデルが推定したMIDIを微分可能なピアノ音響合成器に通し、再合成された音と元の音を比較して誤差があればフィードバックする仕組みです。最近のDDSP(Differentiable Digital Signal Processing)の技術により、MIDIから波形への変換を微分可能にすることは可能になりつつあります。このアプローチが実現すれば、モデルは「このMIDIを鳴らすと元の音とズレる」という情報を直接受け取り、音価やベロシティをより正確に調整できるようになります。特に長い減衰音や微妙な強弱表現など、現行の判別モデルが見落としがちな要素も、再生音との差分を最小化する訓練によって捉えられる可能性があります。
-
シンボリック領域でのDiffusion適用: 現在のDiffusion採譜はピアノロール(フレーム×音高のグリッド)ベースですが、これを一歩進めてノートイベント列自体を拡散モデルで生成するアイデアも考えられます。テキスト生成で拡散モデルを用いる研究も出始めており、楽譜も離散トークン列と見なせます。もし実現すれば、Transformerによるシーケンス生成と拡散モデルの長所を融合し、時間的不確実性を持つ音符列を逐次的にサンプルしつつ、全体の整合性も保証するといった生成が可能になるかもしれません。例えば、最初は大まかなノートシーケンスをノイズから生成し、拡散の逆過程で徐々に細部(タイミングやベロシティ)を詰めていく、といった手法です。
-
GANとDiffusionのハイブリッド: GANは高速に一括生成できますが単独では不安定な場合があり、Diffusionは安定だが計算コストが高いというトレードオフがあります。そこで、GANでまず粗い採譜結果を生成し、それをDiffusionモデルで数ステップ微調整(リファイン)するという二段構えも考案の余地があります。これによりリアルタイムに近い速度での推定と高精度化を両立できれば、自動採譜の実用化に向けて大きな前進となるでしょう。
-
大規模事前学習モデルの活用: 自然言語同様、音楽領域でも近年自己教師ありで事前学習した巨大モデルが登場しつつあります。音響の世界ではAudioLMやMusicLM、また汎用音響モデル(例えば楽器認識や音声認識で鍛えたTransformerなど)がこれに当たります。こうしたモデルを採譜タスクに転用することで、少ない教師データでも高性能を発揮したり、未知のピアノ音源(アップライトやエレクトリックピアノなど)にも頑健なモデルが作れる可能性があります。具体的には、まず膨大なピアノ音源で音響表現の潜在空間を学習し、その上に採譜用のデコーダを乗せてファインチューニングする、といったアプローチです。生成系モデルである以上、データから音楽的な先行知識(例えば典型的な和音進行や音のつながり)も内部表現として持てるため、完全に一から学習するより合理的に精度を上げられるでしょう。
-
マルチモーダル・文脈情報の統合: ピアノ演奏の情報は音だけでなく映像(鍵盤の動き)などにも表れます。近年、音と映像の両方を入力して精度を向上させる試みもなされています ([PDF] An Audio-Visual Fusion Piano Transcription Approach ... - DAFx 2020.)。映像が利用できる特殊なケースではありますが、将来的には音声だけでも映像に相当する情報を補完的に生成し、それを手掛かりに採譜する、といった発想もあり得ます(人間が「演奏している様子」を想像しながら耳コピするようなものです)。また文脈情報として、演奏されている曲の楽譜データや音楽理論的な知識をモデルに与え、曖昧な部分を補正するアプローチも考えられます。たとえば生成系モデル内部に言語モデル的な音楽ルールを組み込み、「ここでは調性的にこの音は出現しにくいから別の音だろう」などと推論させることも可能かもしれません。
以上のように、生成系AI技術はピアノ自動採譜の新境地を開くポテンシャルを秘めています。未だ研究途上のアイデアも多いですが、従来法の延長では難しかった音符間の相互依存の表現や未ラベルデータの活用、創発的な誤り補正など、生成モデルならではの強みを生かすことで、将来的には人間の耳コピに迫る精度で「どんな曲でも楽譜に起こせる」技術が実現するかもしれません。その実現に向けて、今後も多角的なアプローチの研究が期待されます。
参考文献: 自動採譜分野の最近のレビュー (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey) (Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey)、Onsets and Framesモデル (Music Transcription with Transformers)、Kim&Bello (2019) ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription) ([1906.08512] Adversarial Learning for Improved Onsets and Frames Music Transcription)、Hawthorneら(2021) (Music Transcription with Transformers)、DiffRoll (2023) (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities) (DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability | Sony R&D Activities | Sony R&D Activities)、階層型Transformer (2023) ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer) ([2307.04305] Automatic Piano Transcription with Hierarchical Frequency-Time Transformer)、Yanら(2021) (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview) (Skipping the Frame-Level: Event-Based Piano Transcription With Neural Semi-CRFs | OpenReview)、Kongら(2020) 等.
Discussion