Closed5ヶ月前にクローズ8

メモ: Linuxのサウンド周り（特にエコーキャンセリング）

ゆえあってエコーキャンセリングについて調査中。まあそれだけに限らずLinuxのサウンドや音響関連の記事を少し収集。
https://note.com/nagataniyoshiki/n/nebd39326d046
https://note.com/nagataniyoshiki/n/nde3dd774cb8c
https://note.com/nagataniyoshiki/n/ne29183cc1c18
https://note.com/nagataniyoshiki/n/n87a99ab7f29d

kun432

https://qiita.com/norippy_i/items/9fbcd254d3fba6081b1e
結構するのな
https://store.ux-xu.com/products/codama

kun432

PulseAudioにはモジュールがある
https://matoken.org/blog/2020/05/01/pulseaudios-echo-cancellation-module-for-linux-looks-good/
結構使用されている
https://github.com/houtbrion/HomePhone
https://qiita.com/tetsu_koba/items/6c07129caa5a08d5d172
https://zenn.dev/nszknao/articles/zenn-ai-agent-hackathon
当初は、Raspberry Pi の OS に採用されている PulseAudio の echo cancellation モジュールを利用してエコーキャンセルを試みましたが、十分な効果が得られなかったため、今回はエコーキャンセル機能を使わない運用としました。その代わり、エージェントが発話中はユーザーが新たに話しかけることを制限し、エージェントの発話が完了するまで待機する方式を採用しました。これにより、ユーザーはエージェントの発話終了後であれば質問を行えるようになりました。
これは実際に試してみて判断したい

kun432

https://zenn.dev/pinto0309/scraps/0662886e7a16d3
https://zenn.dev/pinto0309/scraps/215c4c85cfdd47
https://zenn.dev/pinto0309/scraps/e818707caccd46

kun432

GitHubやHuggingFaceを見ると色々ありそうな気もする。

kun432

https://zenn.dev/atupon/scraps/0777d0116b9230
https://mickey-happygolucky.hatenablog.com/entry/2015/04/04/105512
https://mickey-happygolucky.hatenablog.com/entry/2019/08/30/125038
https://wiki.ubuntulinux.jp/UbuntuStudioTips/Setup/UbuntuSoundSystem
https://qiita.com/ntrlmt/items/b65d9db4d1a3cdb089db

kun432

まずは、PulseAudioでエコーキャンセリングモジュールを有効にする。ちなみに環境はRPi4。

~/.config/pulse/default.paに以下を追加する

.include /etc/pulse/default.pa

load-module module-echo-cancel

PulseAudioを再起動

systemctl --user restart pulseaudio.service

sourceとsinkに仮想デバイスが生える。"echo cancel"という文字が見えているのがわかる。

pactl list sources short

出力

0	alsa_input.usb-C-Media_Electronics_Inc._USB_PnP_Sound_Device-00.analog-monomodule-alsa-card.c	s16le 1ch 48000Hz	SUSPENDED
1	alsa_output.platform-bcm2835_audio.stereo-fallback.monitor	module-alsa-card.c	s16le 2ch 44100Hz	SUSPENDED
2	alsa_output.platform-bcm2835_audio.stereo-fallback.2.monitor	module-alsa-card.c	s16le 2ch 48000Hz	SUSPENDED
3	alsa_input.usb-C-Media_Electronics_Inc._USB_PnP_Sound_Device-00.analog-mono.echo-cancel	module-echo-cancel.c	float32le 1ch 32000Hz	SUSPENDED
4	alsa_output.platform-bcm2835_audio.stereo-fallback.2.echo-cancel.monitor	module-echo-cancel.c	float32le 1ch 32000Hz	SUSPENDED

pactl list sinks short

出力

0	alsa_output.platform-bcm2835_audio.stereo-fallback	module-alsa-card.c	s16le 2ch 44100Hz	SUSPENDED
1	alsa_output.platform-bcm2835_audio.stereo-fallback.2	module-alsa-card.c	s16le 2ch 48000Hz	SUSPENDED
2	alsa_output.platform-bcm2835_audio.stereo-fallback.2.echo-cancel	module-echo-cancel.c	float32le 1ch 32000Hz	SUSPENDED

このあたりの理屈がいまいちわからなくて、例として、

何らかの音声を入力で受ける
それを元に何らかの処理を行う
結果を音声で出力する

みたいなアプリケーションの場合に、エコーキャンセリングモジュールがどのように機能するか？をChatGPTと壁打ちした。

まず、エコーキャンセリングモジュールがない、普通の場合。

エコーキャンセリングモジュールがある場合。

で、OSのオーディオ設定で、これらの仮想デバイスを参照するようにすればいいらしいのだが、デバイスのオーディオルーティングをきちんと理解しようとすると非常にわかりにくい。そのあたりをまとめようと思ったけど、面倒なので設定で書いた。

~/.config/pulse/default.pa

.include /etc/pulse/default.pa

load-module module-echo-cancel source_name=ec_source sink_name=ec_sink aec_method=webrtc
update-source-proplist ec_source device.description="Microphone (EC)"
update-sink-proplist ec_sink device.description="Speaker (EC)"

set-default-source ec_source
set-default-sink ec_sink

~~とりあえずこれで検証する。~~

自分が試してみた限りは結構しっかり効いてた。むしろちょっと効きすぎぐらいの感じ。パラメータでもう少しいじれないものかを確認してみたい。

参考

kun432

Macのloopbackみたいな感じでGUIで管理できるツールが欲しくなる。
https://www.reddit.com/r/linuxquestions/comments/mct1x0/loopbacklike_gui_programs/
https://hnosschan.gitlab.io/nomad/beginners-guide-getting-started-jack.html

このスクラップは5ヶ月前にクローズされました