👂

AIと自然に話す時代到来?名古屋大学の新システム「J-Moshi」

2025/01/26に公開1

2025年1月24日、名古屋大学が、日本語 full duplex(全二重)音声対話システム「J-moshi」を試作し、モデルをHugging Faceで公開しました。

通常のAI会話システムは「話者交代」方式(一人が話し終わってから次の人が話す)ですが、この研究では「full-duplex」という、人間同士の自然な会話のように同時に話せるシステムを開発しています。

J-moshiはLLMではないので、実際に発話内容を理解して知能的な反応を返してくれるわけではありませんが、本当にリアルな日本語の発話、イントネーション、相槌等を体感できて驚きでした。

このレベルでLLMと連携して発話できるようになると凄い技術革新になりそうですね。。

詳細は下記リンクを参照してください。

https://note.com/aicu/n/nc1b1a911caf4

実際に使ってみた

リンク先の情報を元に、実際にJ-moshiを使って「ChatGPTの音声会話モードのAI VS J-moshiで対話させてみました。

J-moshiは起動するとランダムな会話を始めるのですが、以下の動画では、「お金持ちの家族は良いのか、だめなのか?」について熱く発話してくれています。

お金持ちについて云々しゃべりまくってるのがJ-moshi(AI)で、
それに対して受け答えしてるのがChatGPTのAIです。

どっちもAIですが、普通に聴いたらJ-moshiの方が人ですよね(笑)

しゃべってる内容はちょっと意味不明ですが、もうこのレベルになると「これ、普通に人間がしゃべってるでしょ?」っていうレベルです。

https://youtu.be/vgKyd5lEqZg

以下、この技術革新をより分かりやすく伝えるため、生成AIを使って上記リンク先の情報を物語風に書き直してみました。

🌟 未来の会話を切り開く技術の誕生 🌟

📍 2025年1月24日、名古屋の静かなキャンパスで、未来の会話が生まれようとしていました。研究室の一角で、大橋厚元、飯塚慎也、姜菁菁、東中竜一郎の4人の研究者たちは、汗を流しながら新たな音声対話システム「J-moshi」の試作に取り組んでいました。彼らの目の前には、今までの対話の常識を覆す可能性が広がっていたのです。


🔬 彼らは、AIが人間らしい会話を実現するための新たなアプローチに挑戦していました。一般的なAIシステムは、話者交代方式であり、一人が話し終わってから次の人が話すという形式が主流です。しかし、彼らが目指したのは「full-duplex」という、まるで友人同士が自然に話し合う時のように、同時に会話ができるシステムです。この革新は、私たちの日常会話の中でどれほど自然で、心地よいものであるかを思い起こさせます。


💭 例えば、友達との会話の中で、あなたが「今日はいい天気だね」と言った瞬間、相手が「そうだね、ピクニックにでも行こうか」と重なって返事をする。そんな瞬間、心が躍りますよね。J-moshiは、そうした会話のリズムを再現し、私たちのコミュニケーションをより豊かにすることを目指しています。


📚 この研究の背景には、英語の「Moshi」という先行システムがありますが、日本語においてはそのようなシステムがほとんど存在しませんでした。そこで、名古屋大学の研究者たちは、Moshiを基に日本語版の「J-Moshi」を開発しました。これが日本語で初めての同時双方向会話システムなのです。


J-Moshiのユニークな点は、相槌や話の重なりといった日常会話の要素を取り入れていることです。これにより、AIとの対話がより自然で、人間的なものになるのです。想像してみてください。あなたがAIと会話する際、ただ一方的に話すのではなく、互いに反応し合い、まるで友人と話しているかのような感覚を味わえるのです。


🔧 この研究は、JSTムーンショット型研究開発事業の支援を受けており、名古屋大学のスーパーコンピュータ「不老」を駆使して、128基のNVIDIA V100 GPUを用いて学習が行われています。技術の進化が、私たちの生活をどれほど変えるのか、考えるだけでワクワクします。


❓ ここで、あなたに問いかけたいことがあります。もし、AIと自然に会話できる未来がやってきたら、あなたはどんな会話を楽しみたいですか?J-Moshiによって、その未来が現実となる日も遠くはないのです。私たちが手を動かし、Google Colabでの動くコードと解説を共有することで、「つくる人をつくる」AICU mediaは、この新たな技術をより多くの人々に届けていきます。


🎯 結論として、J-Moshiはただの技術革新にとどまらず、私たちのコミュニケーションを根底から変える可能性を秘めています。これからの会話の形を、共に探求していきましょう。あなたの声が、未来の会話を創り出す第一歩になるのです。

Accenture Japan (有志)

Discussion

岸本 悠佑岸本 悠佑

動画から見始めて、
テスト担当者(おばちゃん)とJ-Moshiで「そんな大した事ないな」と思ったら、
J-Moshi(おばちゃん)とChatGPTだった...

やばいですねこれ...