はじめに

初めてテックブログを書きます、10/1に入社した栗原清です。今まで業務の中で自分の意見をブログ等で発信する事が出来なかったので、こういう場をもらえて嬉しいです！
良いキッカケだなと思い、研究用のXアカウントを作ってしまいました。研究について書いていきたい！

前職では、放送局で音声合成の研究開発の仕事をしていました。いわゆる、テレビの「現場」にも、研究の前に１０年ほどいました。特殊な経歴でもありますので、入社エントリーとして自己紹介をさせてください。

入社のきっかけ

入社のきっかけは、放送業界を超えてAIの研究開発を行いたかったからです！

放送局の中でも、AIの研究開発はできます。むしろ、放送へのアウトプットへのリーチが近いため、実用を見れば有利に研究開発を進められるとも思えます。ただし、一般の社会に普及する応用先が広い研究を行う場合、「放送」しかアウトプットを出せない、とも言えます。「放送業界」ではなく「AI研究開発」の業界にチェンジした方が良いのではないかと。

贅沢な悩みではあるのですが、次第に「社会のために自分ができる事は何だろう」と考えるようになりました。アカデミックと距離が近く、社会実装にも力を入れている松尾研究所はベストな場所なのではないか！声をかけてもらった事をきっかけに、縁あって入社させていただく事になりました。

バックグラウンド

新卒で日本放送協会（NHK）に入局し、そろそろ２０年が経ちそうなタイミングでした。

NHKでは地方局を皮切りに、放送技術者として現場で１０年間に渡って放送と向き合っていました。時には、生放送のケーブルマンとして音声ケーブルを持って走り回ったり、生中継のミキサーをしたり。宿泊勤務で放送局の心臓部で機材メンテナンスをしていた事もあります。放送局の現場は作業自体は地味な作業もあるのですが、自分の仕事が何百万人に届く刺激的な仕事でした！

この現場経験こそ、私の研究開発に一番影響を与えている業務であったと断言できます。放送のオペレーションは、間違えが許されません。さらに、開発するシステムはエンジニアが触らないものが多く、技術的な詳細が分からない作業者が触っても「間違いない」システムでなければならないのです。たとえ高度なシステムでも、この辺りの詰めが悪いと運用者からは評価されません。開発の時には、ヒューマンエラーを取り除くために、徹底的にUI/UXを考え尽くす事を学びました。

常にユーザー目線で研究・開発を見る事ができ、現場の人と同じ目線で研究を語る事ができるようになったのは、現場での設備整備の経験が生きていると思います。幸いにも、私の研究は実用まで行き着く事が多いのですが、これらの現場での経験が役に立っていると断言できます。研究は「ずっと同じ事を追求した先に、新しい世界が開ける」ような側面もありますが、必ずしもそうじゃないと思います。多様性こそ新たな価値観を築く礎になりますので、「多様な技術や経験」があるからこそ、人と違った研究や開発が生まれるものなのではないかと思います。

ですので、これを読んでいる研究開発に興味のある人には、色々な経験を積んでほしいと思います。遊びや趣味でも良いと思いますし。「Deep Learning」を勉強した先にのみ、良い研究開発がある訳ではないと思いますので。AIが様々な知的労働を代替する時代が来ると思いますが、その時にAIが積むことができない「経験」こそ、人間の強みとなっていくはずですし、良い研究開発もその先にあるのではないかと思っています。

話がそれましたが、その後NHK放送技術研究所に異動し、AI音声合成の研究者として研究を始めます。音声合成の分野がにわかに盛り上がり始めた2016年の事です。

放送技術者からAIの研究者へ

ここからは実績ベースで何をやってきたか紹介します。

研究

2016年からAIの研究開発を本格的に開始しました。最初の１，２年は何の成果も無かったと思います。その後、2018年に開発した系列変換モデル音声合成の日本語化手法^[1]^[2]がオープンソースプロジェクトESPNetに採用された事で、多くの日本語音声合成の研究に採用されました。この研究以降、日本語音声合成がプロダクト化して実用され今ではYouTubeの動画等で見ない日はありません。現在一般に普及している日本語音声合成の「日本語化」の部分に影響を与えているものと推察しています。

上記で触れた手法を提案法として紹介していきます。2013年に登場し、音声合成で初めてDeep Learningを用いた手法をフィードフォワード型の音声合成手法^[3]^[4]（図1. 左側）とした時に、私は提案法としてSeq2seq with attention(系列変換モデル)やTransformerで用いる事ができる日本語化手法^[1:1]^[2:1]を2018年に提案しました。
また、日本語化手法だけではなく、音声合成の日本語言語処理部についても研究しています。言語処理部とは、日本語の発音を司る部分です。従来から良く使われている手法としてOpen JTalk^[5]と呼ばれる言語処理部があります。ただ、古い手法のため、訛ります。これを改善するため、日本語の発音を学習ベースでトレーニングできるTransformer・BERTを用い、さらに「アクセント辞書」のデータを取り込めるようにした日本語言語処理部^[6]を2024年に提案しました。技術の詳細は別の機会で解説したいと思いますが、何が良いかと言うと、「アクセント辞書の情報に基づいて正しいアクセントで話す事ができる日本語音声合成」ができる、というのが良いところです。日本語音声合成の大変さは、別途話したい。

音声合成の従来法と私の提案法

日本語アクセントの難しさは、日本語の話なのに学校の国語の科目として習わない所にあると思います。それが、日本人なのに日本語アクセントが分からない原因だと思います。この辺りに課題感を持ち、日本語の発音の可視化や、音声合成のデータの自動作成で「音声から日本語の読みとアクセント」を推定する手法^[7]^[8]を2022年に考案しました。

実用

研究を実用化するには、研究とはベクトルが違う困難が付きまといます。最初は１人で始めたものがだんだん大きくなっていくと、ステークホルダーも大きくなっていき、利害関係を調整しなければならなくなります。私の場合は、もともと現場と設備整備の経験があったためステークホルダーとのコミュニケーションに長けていた事、また何よりも周りの人達に恵まれた事もあり、自分のやっていた研究の実用化を多く進める事ができました。多分、研究者だけをやっていたら、こうはならなかっただろうと断言できます。

文献やメディアによって実用化が公知になっている情報のみ、実績として記載します。

ニュースの読み上げ

テレビにおいて、初めて全国放送のニュースを音声合成が読み上げたのは、NHK総合テレビの「おはよう日本」「NHKニュース」でした^[9]。こちらは、^[2:2]の手法を用いており、2020年から実用しています。この手法を用いた日本語音声合成が実用化された場としては、おそらく初めてであったと思います。その点で、NHKのニュース読み上げにこの日本語音声合成が用いられたのは意義深い事でした！

ラジオ気象情報自動読み上げ装置

NHKでは2023年に気象情報のラジオ番組を自動送出する「ラジオ気象情報AIアナウンス」を実用化し、2024年には全国27局で放送を開始しています^[10]。このシステムでは、気象庁・日本気象協会から取得した気象電文から自動で気象原稿を生成しますが、その原稿を開発した音声合成で読み上げています^[10:1]。

政見放送

NHKの政見放送の前後の音声ナレーションのみ、音声合成を用いています。このシステムでは、政見放送の届け出データを電子化し、映像と音声の制作を自動化するシステムを構築^[10:2]しましたが、その音声生成部分として用いられています^[10:3]。今度、NHKの政見放送をご覧になる際は、政見放送の前後にも注目してみてください！

世界最大規模のスポーツの祭典の自動実況

４年に１度開催される、世界最大規模のスポーツの祭典において自動実況システムを開発^[11]^[12]していました。こちらは、系列変換モデルを用いた音声合成手法^[2:3]は使用していませんでしたが、スポーツ中継に自動実況を付加するという取り組みを2018年にはサービスとして開始していたという、なかなか時代を先取りした取り組みでした。アプローチは違えど、VLM (Vision Language Model)などが出てきている昨今、発展していく分野だと思います。

松尾研究所に入って良かったところ

松尾研究所に入って良かったと実感しているところを挙げますね。

周りの同僚のデータサイエンティストの方のレベルが非常に高いと思いました。前職で、ベンダーが開発する生成AIの開発をいくつか見てきましたが、それらと比べプロジェクトにおける問題解決に用いる技術レベルが非常に高いと思います。また、同僚以外にも松尾・岩澤研究室の学生や研究者の研究を研究室が主催するポスターセッションで毎月のように見る事ができるのもありがたいです。LLMのマルチモーダル化が進んでいく中で、音声研究においてもLLM、CV、Physical AIをより深く学ぶ必要が出てきていますが、それらの専門家にアクセスできる環境は大変ありがたいと感じています。

研究レベルの話から実運用まで、高度なレベルで会話ができるのが松尾研究所の良いところだと思います！

また、ブログは書いていきたいと思いますので、今回は以上とします！

脚注

栗原ら, 読み仮名と韻律記号を入力とする日本語end-to-end音声合成の音質評価, 信学技報, SP2018-49, pp. 89-94, 2018. ↩︎ ↩︎
Kurihara et al., Prosodic features control by symbols as input of sequence-to-sequence acoustic modeling for neural TTS, IEICE Trans. Inf. & Syst., E104-D, vol. 2, pp. 302-311, 2021. ↩︎ ↩︎ ↩︎ ↩︎
Zen et al., Deep mixture density networks for acoustic modeling in statistical parametric speech synthesis, ICASSP, pp. 3844-3848, 2014. ↩︎
Morise et al., WORLD: A vocoder-based high-quality speech synthesis system for real-time applications, IEICE Trans. Inf. & Syst., E99-D, vol. 7, pp. 1877-1884, 2016. ↩︎
Lee et al., MMDAgent—A fully open-source toolkit for voice interaction systems, ICASSP, pp. 8382-8385, 2013. ↩︎
Kurihara et al., Enhancing Japanese text-to-Speech accuracy with a novel combination transformer-BERT-based G2P: Integrating pronunciation dictionaries and accent sandhi, INTERSPEECH, pp. 2790-2794, 2024. ↩︎
栗原ら, Wav2vec 2.0 による音声認識手法を用いた音声合成モデル学習用入力ラベル推定手法の検討, 日本音響学会秋季研究発表会, 2021. ↩︎
Kurihara et al., Low-resourced phonetic and prosodic feature estimation with self-supervised-learning-based acoustic modeling, ICASSP SASB, pp. 640-644, 2024. ↩︎
栗原, 日本語音声合成を用いたAIアナウンスシステムの研究と実用化, 78巻, 2号, pp. 234-242, 映像情報メディア学会誌. ↩︎
栗原, 最新の音声合成技術の動向および日本語音声合成技術とその放送への実用 (特集音声合成技術の最前線), 78巻, 5号, pp. 519-525, 映像情報メディア学会誌. ↩︎ ↩︎ ↩︎ ↩︎
Kurihara et al., Automatic generation of audio descriptions for sports programs, SMPTE Motion Imaging Journal, 128 (1), pp. 41-47, 2019. ↩︎
Kumano et al., Generation of automated sports commentary from live sports data, IEEE BMSB, pp. 1-4, 2019. ↩︎

Discussion