【論文訳】Guiding Co-Creative Musical Agents through Real-Time Flute Instru
Guiding Co-Creative Musical Agents through Real-Time Flute Instrumental Playing Technique Recognition
フルートを用いた、リアルタイムでのSOMAXを使用したインプロビゼーションの試みを記した論文の解説をします。
Introduction
この論文は、フルートの演奏技術(Instrumental Playing Techniques, IPT)をリアルタイムで認識するための分類器の開発について説明しています。この分類器は、Convolutional Neural Networks(CNN)を用いて高い精度で異なるフルート演奏技術を検出します。特に、この分類器の出力は、Somax2というコクリエイティブな即興演奏システムに活用され、リアルタイムの音楽生成をガイドします。これにより、人間と機械のインタラクションを強化し、即興演奏やコンピュータ支援作曲に新たな可能性を提供します。
課題と目的
- 背景: Corpus-Based Concatenative Synthesis(CBCS)は、リアルタイムの音楽生成において重要な役割を果たしています。
- 音楽エージェントの重要性: 音楽即興やコクリエーションにおけるエージェントの役割がますます重要になっています。
- 研究の独自性: フルートのIPTをリアルタイムで認識し、Somax2を通じて即興演奏に反映させることにより、新しい音楽生成の可能性を探ります。
目的
この研究は、音楽エージェントがリアルタイムでフルートの演奏技術を認識し、それに応じて即興演奏に反応できるようにすることを目指しています。これにより、人工エージェントと人間の演奏者がより自然に協調しながら演奏できる環境を構築します。
Real-Time IPT Recognition
Existing Systems
現在、楽器演奏技術(IPT)の認識にはいくつかの既存システムが存在しますが、これらにはいくつかの制約があります。PCA(Principal Component Analysis)やオンセット検出に基づく方法は、特定の技術を識別するには適していますが、他の技術を識別することはできません。機械学習アルゴリズム(SVM、NN)を用いたシステムもありますが、これらは実際の使用に十分な精度を達成していません。特に、チェロに関する研究では現実の状況でテストが行われましたが、まだ実用に適した精度に達していないという問題があります。
- 既存システムの制約:
- PCAやオンセット検出は特定技術に限定。
- SVMやNNを使用したシステムは実用的な精度に達していない。
The Flute Playing Techniques
フルートは多様な演奏技術を持ち、それぞれが独特の音響特性を持っています。フルートの音は口元での空気の摩擦によって生じ、演奏者の吹く空気の速度や特性の変化により異なる技術が演奏されます。例えば、スタッカート、ピッツィカート、フラッタータンのような発音技術、エオリアンやホイッスルトーンのような空気の流れに基づく技術、マルチフォニックスやトリルのような指使いの技術があります。短時間の技術は分類器にとって特に認識が難しいため、これらはデータセットから除外されています。
- フルート演奏技術の分類:
- 発音技術: スタッカート、ピッツィカート、フラッタータン
- 空気の流れに基づく技術: エオリアン、ホイッスルトーン
- 指使いの技術: マルチフォニックス、トリル
- 短時間技術は除外(キークリック、ピッツィカート、スタッカート、タンガラム)
Datasets
モデルのトレーニングにはGFDatabaseの音声ファイルを使用しています。このデータベースには、異なるマイクロフォンから録音された11種類のフルート演奏技術が含まれています。各技術はそれぞれの音域で録音されており、前処理により不要な技術を除外しています。テストにはFullSOL音源を使用しており、これによりトレーニングデータセットと同様の演奏技術を含む音源で評価を行っています。
-
トレーニングデータセット:
- 使用データ: GFDatabase
- 録音方法: 7つのマイクロフォン、11種類の演奏技術
- 不要な技術の除外
-
テストデータセット:
- 使用データ: FullSOL音源
- 評価方法: トレーニングデータセットと同様の技術を使用
Data format
データの前処理には、音声ファイルを24kHzにダウンサンプリングし、無音部分をトリムする手法を使用しています。分析にはTorchaudioライブラリのLog-Mel-Spectrogram(LMS)を用い、128ビン、FFTウィンドウ2048サンプル、ホップサイズ512サンプルで解析します。音声ファイルを15フレーム(約320ミリ秒)に分割し、フレーム数が15未満の場合はゼロでパディングします。
-
データ前処理:
- サンプルレート: 24kHz
- 無音部分のトリム
- フレーム分割: 15フレーム(約320ミリ秒)
-
分析方法:
- Log-Mel-Spectrogram(LMS)
- FFTウィンドウ: 2048サンプル
- ホップサイズ: 512サンプル
Data Augmentations
データ増強のために、ピッチシフト、ガウスノイズの追加、タイムストレッチの3つの手法を使用しています。ピッチシフトでは、440Hzの基準チューニングから±100Hzの範囲でチューニングをシフトさせます。ガウスノイズはマイクロフォンの信号が増幅されるときに生成されるノイズをシミュレートし、タイムストレッチは演奏技術が異なる速度で実行される可能性を考慮して、オーディオサンプルの長さを±20%変更します。
- データ増強手法:
- ピッチシフト: ±100Hzの範囲
- ガウスノイズの追加
- タイムストレッチ: 長さを±20%変更
Model Architecture
リアルタイムIPT認識のために、深層CNNアーキテクチャを実装しました。従来の研究で提案された設計をテストし、それに追加の層を加えることで精度を向上させました。各畳み込み層の後にはバッチ正規化とドロップアウト層を追加し、過学習を防ぎつつトレーニングを高速化しました。
- モデル設計:
- 深層CNNアーキテクチャ
- 追加の層とハイパーパラメータの調整
- バッチ正規化とドロップアウト層
Training
ニューラルネットワークの重みはXavier正規分布初期化で初期化され、クロスエントロピー損失関数を最小化するためにトレーニングが行われます。ミニバッチ勾配降下法はADAM最適化を使用し、学習率の指数減衰を取り入れています。トレーニングはV100 GPUマシンで100エポック行われます。
- トレーニング方法:
- Xavier正規分布初期化
- クロスエントロピー損失関数
- ADAM最適化と学習率の指数減衰
- 100エポック
Measurements
モデルの評価には、トレーニング完了後の精度測定、混同行列の生成、リアクティビティと安定性の評価、および遅延時間の計測が含まれます。リアルタイムの状況をシミュレートするために、ランダムに生成されたテストサンプルを使用して、技術の変化に対するモデルの反応と一貫性を評価します。また、モデルの予測時間とオーディオサンプル処理時間を測定し、総遅延時間を計算します。
- 評価方法:
- 精度測定と混同行列の生成
- リアクティビティと安定性の評価
- 遅延時間の計測
Results
Accuracy and Confusion Matrix
本研究では、フルート演奏技術を認識するモデルの精度は92.56%に達しました。混同行列の結果から、トリル技術は99.47%の精度で最も正確に識別されましたが、マルチフォニックス技術の識別精度は78.61%と最も低くなりました。
- 精度: 92.56%
-
混同行列:
- トリル: 99.47%
- マルチフォニックス: 78.61%
Reactivity and Steadiness Study
リアクティビティと安定性の評価では、モデルが技術の変化に対して迅速に反応し、一貫性を保つことが確認されました。具体的には、技術の変化点と技術が消える瞬間に誤認識が見られましたが、全体の精度は98.66%でした。
- リアクティビティ: 変化に迅速に反応
- 安定性: 一貫性を保つ
- 全体の精度: 98.66%
Total Delay Time
モデルとオーディオ処理の遅延時間の測定では、平均遅延時間が27.86ミリ秒と計算され、設定した許容範囲内(42.6ミリ秒以下)に収まりました。これは、リアルタイムでの実行が可能であることを示しています。
- 平均遅延時間: 27.86ミリ秒
- 許容範囲: 42.6ミリ秒以下
これらの結果から、提案したモデルはリアルタイムのフルート演奏技術認識において高い精度と応答性を示し、実用的な遅延時間内で動作することが確認されました。
Integration with Somax2
Somax2 Concepts
Somax2は、リアルタイムでスタイリッシュな音楽の相互作用を生成するために設計されたシステムであり、特に即興演奏における反応性を重視しています。音楽データを解析して非線形の探索モデルを構築し、生成された音楽フラグメントを使ってリアルタイムの音楽生成を行います。
-
基本概念:
- 音楽データの断片を解析
- 非線形探索モデルの構築
- 即興演奏における反応性の重視
Output Selection
Somax2の出力選択は主にクロマとピッチに基づいていますが、新しいラベルフィルター機能を追加することで、IPTクラスに基づいた出力選択が可能になりました。これにより、指定されたラベルに一致する音楽断片を動的に選択できます。
-
出力選択モード:
- クロマとピッチに基づく
- 新しいラベルフィルター機能の追加
Region Mask
Region Maskは、指定されたコーパスのインデックス範囲内で出力を選択するスケールアクションです。
General Output Selection Mode
一般的な出力選択モードは、モデルが扱うピッチとクロマディスクリプターに基づいて出力をフィルタリングし選択します。
Label Feature Formalisation
新しいラベルフィルター機能を導入することで、Somax2の出力選択モードを拡張し、IPTクラスに基づいた動的な領域選択を実現しました。
Label Filter Parameter
ラベルフィルターパラメータは、認識されたIPTに基づいて出力を選択するためのバイナリインジケーターとして機能します。
Label Filter Function
ラベルフィルターは、認識されたIPTラベルに基づいて音楽断片を選択するための関数で、指定されたラベルに一致する断片を動的に選択します。
Implementation
リアルタイムIPT認識システムとSomax2の統合は、PythonバックエンドとMax/MSPフロントエンドを用いて実現されます。以下にその詳細を説明します。
Python back-end
Pythonバックエンドは、フルートのオーディオストリームをリアルタイムで処理し、演奏技術の認識を行います。このシステムは以下のステップで動作します:
- オーディオ信号の処理: 入力信号を24kHzにダウンサンプリングし、サンプルをバッファに保存します。
- ログメルスペクトログラム分析: 保存されたサンプルをLMS分析にかけ、128ビンのスペクトログラムを生成します。
- モデルの予測: 分析結果をもとにCNNモデルが演奏技術を認識し、最も高い確率のクラスを特定します。
- 結果の送信: 認識結果をOSCプロトコルを使ってMax/MSPに送信します。
- オーディオ信号処理: 24kHzダウンサンプリング、7680サンプルバッファ
- ログメルスペクトログラム: Torchaudioライブラリを使用
- モデルの予測: CNNモデルによるクラス認識
- 結果送信: OSCプロトコルを介してMax/MSPに送信
Max/MSP front-end
Max/MSPフロントエンドは、オーディオ信号のインターフェースとして機能し、Pythonバックエンドからの認識結果を受け取り、Somax2の即興エージェントを実行します。このフロントエンドは以下の役割を担います:
- オーディオストリームの処理: BlackHoleオーディオルーティングデバイスを使ってオーディオ信号をPythonバックエンドに送信します。
- 認識結果の受信: OSCプロトコルを使ってPythonバックエンドからのIPT認識結果を受信します。
- 即興エージェントの操作: Somax2でラベルフィルタースケールアクションを使用し、IPTクラスに応じた即興演奏を行います。
- オーディオストリーム処理: BlackHoleデバイス使用
- 認識結果受信: OSCプロトコル
- 即興エージェント操作: Somax2のラベルフィルタースケールアクション
この実装により、フルート演奏技術のリアルタイム認識と即興演奏の統合が実現され、より自然で反応性の高い音楽生成が可能になります。
Discussion
モデルの精度と課題
本研究で開発したモデルは、フルート演奏技術の認識において92.56%の高い精度を達成しました。混同行列の結果からも明らかに、特定の技術(例えばトリル)の認識精度は非常に高い一方で、マルチフォニックス技術の識別に課題が残っています。短時間技術(キークリック、ピッツィカート、スタッカート、タンガラム)はデータセットから除外されているため、これらの技術の認識には改良の余地があります。
- 精度: 92.56%
-
技術別の認識精度:
- トリル: 99.47%
- マルチフォニックス: 78.61%
- 短時間技術は除外
リアルタイム性と応答性
リアルタイム性の評価では、モデルが技術の変化に迅速に反応し、一貫性を保つことが確認されました。特に、技術の変化点での誤認識があるものの、全体的なリアルタイム応答性は非常に高いです。
- リアクティビティ: 変化に迅速に反応
- 安定性: 高い一貫性
- 全体の精度: 98.66%
遅延時間
モデルとオーディオ処理の遅延時間の測定結果から、平均遅延時間が27.86ミリ秒と計算され、リアルタイムアプリケーションにおいて許容範囲内に収まっていることが確認されました。これにより、システムは即興演奏のシナリオでも実用に耐える性能を示しています。
- 平均遅延時間: 27.86ミリ秒
- 許容範囲: 42.6ミリ秒以下
改善点と将来の展望
今後の研究では、短時間技術の認識精度向上のために、音声データに音響特徴量を追加することが考えられます。また、プロの即興演奏者とともにスタジオでのテストを実施し、実用性を検証します。さらに、他の楽器(クラリネット、エレキギターなど)への拡張も計画しています。
- 短時間技術の認識: 音響特徴量の追加
- 実用性の検証: スタジオでのテスト
- 他楽器への拡張: クラリネット、エレキギター
この研究は、フルート演奏技術のリアルタイム認識を実現し、Somax2を通じて即興演奏の新しい可能性を開きました。これにより、人間と機械の協調的な音楽生成が進化し、より創造的な音楽体験が提供されることが期待されます。
Conclusions
この論文では、リアルタイムでフルートの演奏技術(IPT)を認識するためのCNNベースのモデルを開発し、その出力をSomax2システムと統合することで、即興演奏における人間と機械の協調を実現しました。モデルは92.56%の精度を達成し、リアルタイムの応答性と安定性を備えています。短時間技術の認識精度向上や他の楽器への拡張など、今後の研究課題も明確にされています。本研究は、創造的な音楽体験を提供するための新たな可能性を示しました。
References
-
David Schwarz, G. Beller, B. Verbrugghe, and S. Britton, "Real-Time Corpus-Based Concatenative Synthesis with CataRT," in 9th International Conference on Digital Audio Effects (DAFx), Montreal, Canada, Sep. 2006, pp. 279–282.
-
N. Schnell, A. Röbel, D. Schwarz, G. Peeters, R. Borghesi et al., "Mubu and friends–assembling tools for content based real-time interactive audio processing in max/msp," in ICMC, 2009.
-
P. A. Tremblay, O. Green, G. Roma, J. Bradbury, T. Moore, J. Hart, and A. Harker, "Fluid corpus manipulation toolbox," Jul. 2022. [Online]. Available: https://doi.org/10.5281/zenodo.6834643
-
R. Rowe, "Interactive Music Systems: Machine Listening and Composing." Cambridge, MA, USA: MIT Press, 1992.
-
D. Borgo, "Sync or Swarm: Improvising Music in a Complex Age." AC Black, 2005.
-
K. Tatar and P. Pasquier, "Musical agents: A typology and state of the art towards Musical Metacreation," Journal of New Music Research, vol. 48, no. 1, pp. 56–105, 2019.
-
G. E. Lewis, "Too many notes: Computers, Complexity and Culture in Voyager," Leonardo Music Journal, vol. 10, pp. 33–39, 2000.
-
G. Assayag, G. Bloch, M. Chemillier, A. Cont, and S. Dubnov, "Omax brothers: a dynamic topology of agents for improvization learning," in Proceedings of the 1st ACM workshop on Audio and music computing multimedia, 2006, pp. 125–132.
-
J. Nika, K. Déguernel, A. Chemla, E. Vincent, G. Assayag et al., "DYCI2 agents: merging the 'free', 'reactive', and 'scenario-based' music generation paradigms," in International Computer Music Conference. Shangai, China, 2017.
-
G. Assayag, L. Bonnasse-Gahot, and J. Borg, "Cocreative Interaction: Somax2 and the REACH Project," Computer Music Journal 1-19, pp. 1–34, Feb. 2024. [Online]. Available: https://doi.org/10.1162/comj_a_00662
-
M. Malt and M. Gentilucci, "Real time vowel tremolo detection using low level audio descriptors," arXiv preprint arXiv:1511.07008, 2015.
-
M. Malt and E. Jourdan, "Real-time uses of low level sound descriptors as event detection functions using the max/msp zsa. descriptors library," in Brazilian Symposium on Computer Music, vol. 12, 2009, pp. 45–56.
-
L. Su, H.-M. Lin, and Y.-H. Yang, "Sparse modeling of magnitude and phase-derived spectra for playing technique classification," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 12, pp. 2122–2132, 2014.
-
Y.-P. Chen, L. Su, Y.-H. Yang et al., "Electric guitar playing technique detection in real-world recording based on f0 sequence pattern recognition," in ISMIR, 2015, pp. 708–714.
-
C. Wang, E. Benetos, V. Lostanlen, and E. Chew, "Adaptive scattering transforms for playing technique recognition," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1407–1421, 2022.
-
P. Herrera, A. Yeterian, and F. Gouyon, "Automatic classification of drum sounds: a comparison of feature selection methods and classification techniques," in Music and Artificial Intelligence: Second International Conference, ICMAI 2002 Edinburgh, Scotland, UK, September 12–14, 2002 Proceedings. Springer, 2002, pp. 69–80.
-
J.-F. Ducher and P. Esling, "Folded cqt rcnn for real-time recognition of instrument playing techniques," in International Society for Music Information Retrieval, 2019.
-
A. Martelloni, A. P. McPherson, and M. Barthet, "Real-time percussive technique recognition and embedding learning for the acoustic guitar," arXiv preprint arXiv:2307.07426, 2023.
-
N. Brochec and T. Tanaka, "Toward real-time recognition of instrumental playing techniques for mixed music: A preliminary analysis," in International Computer Music Conference (ICMC 2023), 2023.
-
N. H. Fletcher and T. D. Rossing, "The physics of musical instruments." Springer Science & Business Media, 2012.
-
C. Levine and C. Mitropoulos-Bott, "The Techniques of Flute Playing I/Die Spieltechnik der Flöte I." Bärenreiter-Verlag, 2019.
-
N. Brochec and W. Howie, "GFDatabase: A Database of Flute Playing Techniques," Feb. 2024. [Online]. Available: https://doi.org/10.5281/zenodo.10612396
-
C. E. Cella, D. Ghisi, V. Lostanlen, F. Lévy, J. Fineberg, and Y. Maresz, "Orchideasol: a dataset of extended instrumental techniques for computer-aided orchestration," arXiv preprint arXiv:2007.00763, 2020.
-
Y.-Y. Yang, M. Hira, Z. Ni, A. Chourdia, A. Astafurov, C. Chen, C.-F. Yeh, C. Puhrsch, D. Pollack, D. Genzel, D. Greenberg, E. Z. Yang, J. Lian, J. Mahadeokar, J. Hwang, J. Chen, P. Goldsborough, P. Roy, S. Narenthiran, S. Watanabe, S. Chintala, V. Quenneville-Bélair, and Y. Shi, "Torchaudio: Building blocks for audio and speech processing," arXiv preprint arXiv:2110.15018, 2021.
-
S. Wei, S. Zou, F. Liao et al., "A comparison on data augmentation methods based on deep learning for audio classification," in Journal of physics: Conference series, vol. 1453, no. 1. IOP Publishing, 2020, p. 012085.
-
V. Lostanlen and C.-E. Cella, "Deep convolutional networks on the pitch spiral for musical instrument recognition," arXiv preprint arXiv:1605.06644, 2016.
-
Y. Han, J. Kim, and K. Lee, "Deep convolutional neural networks for predominant instrument recognition in polyphonic music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 1, pp. 208–221, 2016.
-
S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in International conference on machine learning. pmlr, 2015, pp. 448–456.
-
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, "Dropout: a simple way to prevent neural networks from overfitting," The journal of machine learning research, vol. 15, no. 1, pp. 1929–1958, 2014.
-
X. Glorot and Y. Bengio, "Understanding the difficulty of training deep feedforward neural networks," in Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2010, pp. 249–256.
-
J. Borg, "Dynamic Classification Models for Human-Machine Improvisation and Composition," Master’s thesis, Aalborg University, 2020.
-
G. Peeters, "A large set of audio features for sound description (similarity and classification) in the cuidado project," CUIDADO Ist Project Report, vol. 54, no. 0, pp. 1–25, 2004.
Discussion