re:Invent 2023: BMWグループとAlexaが実現する次世代車載音声アシスタント
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
📖 AWS re:Invent 2023 - Taking BMW Group’s in-vehicle voice experience from idea to reality (ALX201)
この動画では、Amazon AlexaのChief EvangelistであるEmerson SklarとBMW GroupのVoice ExperiencesのPrincipal Product OwnerであるPatrick Prangが、次世代の車載音声アシスタントについて語ります。Alexa Custom Assistant(ACA)を活用したMINI Intelligent Personal Assistantの開発過程や、ブランドアイデンティティを反映させた独自の音声作成技術について詳しく解説します。多言語対応やオフライン機能など、高度な技術的課題への取り組みも紹介されており、自動車業界における音声AIの最先端を垣間見ることができます。
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。本編
Amazon AlexaとBMW Groupの戦略的パートナーシップ:次世代車載音声アシスタントの紹介
皆さん、聞こえますか? はい、素晴らしい。皆さん、ようこそ。おはようございます。本日はご参加いただき、誠にありがとうございます。私は Emerson Sklar と申します。Amazon Alexa の Chief Evangelist を務めております。本日は、BMW Group の Voice Experiences の Principal Product Owner である Patrick Prang と一緒に登壇しています。私たちは、Amazon と BMW の長年にわたる戦略的パートナーシップについてお話しし、次世代の車載音声アシスタントを作り出すために、Alexa、AWS、そして BMW のテクノロジーをどのように活用してきたかをご紹介します。
アジェンダとしては、まず BMW Group 自体をご紹介します。特に、ブランドアイデンティティ と評判が、完璧な車内アシスタント体験についてのビジョンをどのように推進し、影響を与えているかについてお話しします。次に、Alexa Enterprise ポートフォリオの一部である Alexa Custom Assistant(ACA)について説明し、なぜこれが BMW の次世代ビジョンを実現するためのプラットフォームとして選ばれたのかを解説します。また、特にソニックブランディング、アイデンティティ、データプライバシーとセキュリティに関連して、直面した技術的課題とその解決策について議論します。最後に、アシスタントの実際の動作をお見せするデモを行います。時間が許せば、最後に質疑応答の時間も設けたいと思いますので、質問がある方は、ここか後ほど外でお待ちください。
MINIブランドの歴史とコミュニティの特徴
ありがとうございます。ようこそ、おはようございます。私は Patrick Prang と申します。Emerson が言及したように、カリフォルニア州 Mountain View にある BMW Group Technology Office の Voice Experience の Principal Product Owner を務めています。本日は、BMW Group の車載音声体験をアイデアから現実へと変えていく過程についてお話しする光栄に預かりました。BMW Group には、 BMW、MINI、Rolls-Royce Motor Cars Ltd の3つのブランドがあります。今日のセッションでは、初めての MINI Intelligent Personal Assistant についてお話しします。
MINI の初期の頃から、Alexa Custom Assistant の役割、そして MINI Intelligent Personal Assistant に至るまでの小さな旅にご案内します。Emerson が言ったように、セッションの最後には小さなデモもご用意しています。 MINI について語る際、MINI が初期の頃から常に特別な存在だったことを認識することが重要です。50年代後半、MINI は広々とした4人乗りの内装とスポーティな走行体験を特徴として導入されました。これは、BMW Group が引き継いだ次世代の MINI でも継続され、来年初めにアメリカで発売される完全電動ラインナップを含む全く新しい MINI へと続いています。
しかし、MINI について語る際には、MINI コミュニティが自分たちの車でどのようなことをしているかも見る必要があります。例えば、Turbonator があります。これは明らかに誰かが MINI からもう少し馬力を引き出そうとしたものです。また、Union Jack の MINI もあります。この車が MINI にとってなぜそんなに重要だったか覚えている人はいますか?この車には26人の体操選手を詰め込むという世界記録があるのです。つまり、MINI は常にかなりスペースがあり、常に驚きをもたらしてきたのです。ウィングドアの MINI もあります - 誰かが乗り降りを楽にしたかったのでしょうね。皆さんの中で MINI を運転したことがある方、あるいは運転席や助手席、さらには後部座席に座ったことがある方なら、私が何を言っているかわかるでしょう。
MINIについて話す際、MINIコミュニティのことも忘れてはいけません。これらの画像はそれぞれ、MINIコミュニティが代表する特定のセグメントを表しています。初期の頃から、MINIコミュニティは技術的なスペックやカスタマイズオプションについて情報交換を行い、「MINI Takes the States」ラリーのような共同ドライビングセッションを行ってきました。これは2年ごとにアメリカで開催されています。MINIは特別なものです。ブランドも特別ですし、その背後にあるコミュニティも特別です。なぜなら、彼らは自分の車と個人的な関係を持っているからです。それがこれらの画像に表れています。
MINI Intelligent Personal Assistantの4つの主要特徴
MINIというブランド、その伝統、ファン層、コミュニティ、そしてそれらが一体となって特別なものを作り出していることを理解した上で、私たちはMINI Intelligent Personal Assistantが備えるべき4つの主要な特徴を定義しました。
MINI Intelligent Personal Assistantの最初の特徴は、強力で多用途なテックスタックです。これは、MINIが初期から持っていたイノベーション力を表しています。製品ビジョンを定義する際、重要な要件の一つは強力な組み込み/オフライン機能でした。MINIの顧客は、車が動いていて、オンライン接続が不安定な場合でも、Intelligent Personal Assistantが常に機能することを期待しています。私たちは、MINIの顧客が常にIntelligent Personal Assistantを使用できるようにしたいと考えました。
2つ目の要件として、車の制御、車の知識、さらにはチャットなど、特定のユースケース向けに独自のカスタムスキルを開発することを定めました。これは、強力なブランディングの観点から他の実装との差別化を図るためです。3つ目の要件は、MINI IDをMINIエコシステムへのエントリーポイントとして維持することでした。これは顧客がすでに慣れ親しんでいるものだからです。これらの3つの要件は、このプロジェクトの初期段階で定義した他の多くの要件のほんの一部です。
次の特徴は、MINIが車を運転する際に表現する感情的な側面です。新しいMINIを見ると、自動車業界で初めての丸型ディスプレイがすでに感動的な体験を生み出しています。丸型ディスプレイがあり、中央にはダッシュボードを強調するライトプロジェクターがあります。音声体験もこのUIコンポーネントに匹敵するものでなければならず、私たちは感情的な側面も伝えたいと考えました。
パーソナルな側面は、もう一つの重要な特徴です。 MINIのお客様は、自分の車をカスタマイズして特別なものにすることを好みます。私たちは、お客様が車に乗り込んだときに個人的な挨拶を受けることで、その特別な関係性を強調したいと考えました。例えば、「Hey MINI、おはよう」と言うと、「Patrick、おはようございます。お元気ですか?」と応答します。単に「ユーザーさん、調子はどうですか?」と言うのではなく、ファーストネームで呼びかけることで、大きな違いが生まれます。
インテリジェントな要素は、 MINIのお客様が旅行中に適切なタイミングで適切なコンテンツを提案し、先を見越した提案をすることを保証します。これらが、MINIのデジタルコンパニオンのために定義した主要な特徴です。 Amazonが、この製品ビジョンを製品に変換する方法について説明します。
Alexa Custom Assistant(ACA):カスタマイズ可能な高度な音声技術
今日、多くの車両には何らかの車内パーソナルアシスタントが搭載されています。市場には、ホワイトラベル、完全ブランド化、またはカスタマイズされたバージョンと呼べるものがいくつかあります。 しかし、Alexaほど、特にAlexa Custom Assistantほど、機能の幅広さ、柔軟性、深さ、技術力、スケールを提供するものはありません。
Alexa Custom Assistant(ACA)は、Alexaのエンタープライズポートフォリオの一部で、 世界中の企業が特定のユースケースや顧客ニーズに合わせて、完全にカスタマイズされた、高度に調整された体験を作成することを可能にします。これは、技術インフラを定義したり、世界中でスケーラブルな機能を維持したりするための重労働なしに実現されます。自然言語処理の専門知識を構築する必要がなくなり、このようなオムニチャネルの音声体験のためのワンストップショップを提供します。
コア技術は、世界中の何億人もの人々が使用しているAlexaと似ていますが、カスタマイズされた開発者ツールと、グローバルで高度な能力を持つプロフェッショナルサービスチームによって支えられています。これにより、音声技術に関する特定の専門知識に関係なく、あらゆる規模や形態の企業が、エンドユーザーのために信じられないほど魅力的な体験を作り出すことができます。もちろん、Alexaは汎用の音声アシスタントです。しかし、汎用の音声システムが必ずしもすべての特定のユースケースに適した解決策ではないことを認識しています。
私たちは、BMWグループほどドライバーやMiniコミュニティを深く理解しているわけではないことも認識しています。そのため、Alexa Custom Assistantは、パートナー企業が最終的なデバイスや体験の種類に関わらず、ブランドやエンドユーザーのニーズと期待を正確に反映したものを作れるよう、迅速な実験とプロトタイピングを可能にするよう設計されています。
また、私たちは単に「動く」だけでなく、「うまく動く」ことを目指しています。ユーザーの言葉を理解しないボイスアシスタントは非常にストレスフルです。特に自動車内では、ユーザーの発言を正確に理解することがより困難になり、理解できなかった場合の影響も大きくなります。数年前、音声技術のエラーに対する人々の感じ方について調査を行いました。その結果、モバイルアプリが動作しない場合、ユーザーは「アプリが壊れている」「スマートフォンが壊れている」「インターネット接続がない」と考え、自分の責任ではなく、デバイスやアプリ開発者の問題だと捉えることがわかりました。
しかし、音声技術の場合、人々は問題を内面化することがわかりました。「デバイスが理解してくれなかった」とは考えず、「自分の言い方が悪かった」「コマンドの言い方が間違っていた」「自分がもごもご話した」と、自分の責任だと考える傾向があります。これは、ユーザーが使用しているエンドデバイスの品質に対する認識に影響を与えることがわかりました。50ドルのスマートスピーカーの場合と、4万ドルのスポーツカーの場合では、品質の認識に与える影響は全く異なる課題となります。
Alexa Custom Assistantは、Alexaと同様に非常に強力な音声認識機能を備えており、Amazonが自然言語処理の最先端技術を推進し続けるにつれて、常に学習し、改善されています。また、これはAmazonのリーダーシップ原則の一つ、私個人のお気に入りでもある「カスタマーオブセッション」という考え方にも結びついています。「既製のソリューションから始めて、ニーズに合わせてカスタマイズする」というアプローチではなく、エンドカスタマーのニーズや問題、課題から出発し、そこからBMWのようなパートナーと協力しながら解決策を見出すよう努めています。
Patrickが言及したように、BMWグループにはいくつかの要件がありました。ソニックブランディングが必要で、アシスタントの声や振る舞いがMiniやBMWのブランドの特徴を反映する必要があります。一部の機能をクラウドに置きながら、コア機能をデバイス上に置くハイブリッドモデルが必要で、それがエンドユーザーにとってシームレスで気づかれないものである必要があります。また、Miniグループがドライバーに与えるコミュニティ感や興奮、冒険心を反映する必要があります。そして、彼らは素晴らしい仕事をしたと思います。
MINIブランドに特化したvoice experienceとパーソナリティの実装
そうですね。では、voice experienceから始めましょう。通常、キーワードを呼びかけてvoice chromeを起動します。Alexa Custom Assistantを使用することで、「hey, Mini」というカスタムキーワードと、Miniブランドを象徴するイングリッシュブルドッグのSpikeをフィーチャーした独自のvoice chromeを導入することができました。voice chromeとキーワードには主に2つの目的があります。1つは、「準備ができました」とお客様に伝えること、もう1つはブランディングの側面を強調することです。つまり、カスタムキーワード「hey, Mini」と、Spikeが登場するMiniのvoice chromeです。
voice experienceの次に重要な要素は、音声そのものです。自然な音声がなければ、製品は使われません。Alexa Custom Assistantを使用することで、Amazonが既に述べたように、Miniブランド独自の音声を開発・導入することができました。Miniの音声には特定の性格特性を定義しました。いくつか挙げると、MINI Intelligent Personal Assistantは「あなたの相棒」であり、サポーティブで、魅力的で、勇敢です。
これらの性格特性は具体的にどういう意味でしょうか?例えば、「相棒」という特性について、「Hey, MINI, 友達はいる?」と尋ねた場合、「ハンドルを握っているあなたが親友だよ」という1つの決まった答えだけでなく、「あなたが一番だけど、駐車場でも他の車と交流するのが好きなんだ」というように答えを変えることもできます。そして、最初のスライドを覚えていますか?MINIのドライバーはいつも隣同士に駐車しますよね?つまり、車同士が交流できるわけです。感情的な絆を築く魅力的な仲間であり、「Hey, MINI, おはよう」と言えば、「おはようPatrick、こちらこそ」や「Patrickがハンドルを握っているなら、いつだっていい朝だよ」というようにサポーティブな応答をします。これらの特性を音声に反映し、お客様に伝えることが重要でした。
革新的な音声合成技術:多言語対応と一貫性の実現
これらの性格特性を最終的な音声製品にどのように反映させたかについて、Amazonが音声作成プロセスの詳細を説明します。合成音声を作成する最初のステップは、これらの性格特性を特定することです。これは新しいtext-to-speechモデルの作成だけでなく、音声技術への多くの投資や開発において、しばしば見過ごされがちなステップです。設計の際に、あたかも会社の人間の代表者が実際にエンドユーザーと話し、交流しているかのように実装することが非常に重要です。
新しい合成音声を作成する能力は以前からありました。MINI車は世界中で販売されており、数十カ国、数十の言語に対応しています。Alexaも数十の言語を話すので、これは非常に適しています。Alexaには多くの音声があります。おそらく、Alexaの様々な音声や、AWSのPollyサービスで提供されている音声を試したことがあるでしょう。これらの音声は素晴らしく、特にneural TTS音声は非常に洗練されています。しかし、Alexaの音声は、私が大好きではありますが、必ずしも冒険心を掻き立てるものではありません。興奮させたり、小さなスポーツカーでギアを切り替えながら走るようなエネルギッシュな気分にさせたりするものではありません。汎用アシスタントとしては素晴らしいですが、この特定のユースケースにはそれほど適していません。
では、どうすればいいのでしょうか?声優を見つけることから始めます。彼らに言語学的に特徴のある発話コーパスを録音してもらいます。何千もの可能性のあるフレーズを録音し、一般的なものもあれば、MINIブランドや、様々な車種、車内の制御機能や機能の名称など、特定のものもあります。そのオーディオに、特定の発話内容に関する大量のメタデータをタグ付けします。そのすべてのデータでニューラルネットワークを訓練し、voilà(はい、できあがり)、素晴らしい新しいテキスト読み上げモデルの完成です。通常、これらのモデルはクラウドにのみ依存しますが、Patrickが言っていたように、それではMINIには十分ではありません。この特定のユースケースには不十分なのです。世界中のドライバーが十分なインターネット接続を持っていない、あるいはまったく接続がない状況が多々あります。
そのため、AWSのInferentiaチップを使用した非常に高精度で正確なクラウド上のモデルもありますが、他の大きなセグメントのユーザーインタラクションをサポートする方法も必要です。今日、運転中の状況を想像してみてください。私たちは今砂漠にいますが、ラスベガスから西に30分ほど行くと、携帯電話の受信が全くなくなります。そんな時にラジオ局を変えたり、温度を調整したりしたくなったらどうでしょう。ほとんどの人は、目を道路から離し、ダッシュボードをいじることになるでしょう。これは良くて気が散る程度ですが、最悪の場合は危険です。そこで私たちが行ったのは、クラウドベースのモデルに加えて、デバイス上に存在し、低CPUとメモリフットプリントに最適化された「ニューラルテキスト読み上げライト」モデルを作成したことです。
この最適化により、クラウド上のものとデバイス上のもののどちらと対話しているのかユーザーにはわからないほど、同じ非常に高精度なインタラクションと音声を提供しています。このモデルはあらゆる可能性のあるインタラクションをサポートしているわけではありません。例えば、携帯電話の受信がない道路を走っていて、「来週のロサンゼルスの天気はどうですか?」と尋ねたとします。そのような天気情報を偽造することはできません。しかし、車に関するコマンドと制御、エンジンライトのチェック、長距離ドライブでの次のターンの確認などについては、オンラインモードとオフラインモードの両方をサポートできるようにしています。
一人の声優が一つの言語を一つのアクセントで話すような合成音声を持つのは素晴らしいことです。しかし、BMW GroupとMINIはグローバルブランドであり、多くの異なる言語とさまざまなアクセントで話し、理解する必要があります。すべての言語を話せる人を見つけてデータセットを録音してもらうこともできますが、それは現実的ではありません。どんなに勤勉な言語学者や才能ある声優でも、ネイティブの流暢な話者のように数十の言語を話すことはできません。
各言語とアクセントに対して異なる声優を見つけることもできますが、それも良い体験とは言えません。多言語家庭で道路を走っている状況を想像してみてください。あなたが英語でアシスタントに質問し、配偶者がスペイン語で質問します。まったく異なる人が応答しているように聞こえたら、MINIドライバーにとっては理想的とは言えない体験になるでしょう。
では、私たちは何をしているのでしょうか?音声の特徴について考えてみましょう。PatrickとI could say the exact same words、お互いを真似しようとさえしても、私たちの言葉は常に異なって聞こえるでしょう。それは、単なる生のテキストを聞いているわけではないからです。人々の話し方には、大量の追加メタデータが含まれています。年齢、性別、感情、ネイティブか非ネイティブかの言語流暢さ、さらには身体的特徴や健康状態まで、人々の声を通じて検出することができます。私たちは日常的に、普通の人々とのやり取りの中で自然にこれを行っています。
これらの個々の特徴をすべて識別し、音声自体から分離して、定量化し記述する方法があったとしたらどうでしょうか。私の話し方を、Patrickのようなネイティブのドイツ語話者のように聞こえるようにすることも可能かもしれません。このプロセスはspeech disentanglementと呼ばれ、生の音声と言葉自体から基本的な特徴を分離することです。
Speech disentanglementと、多言語・多話者の音声認識モデルを作成するために使用する技術はpolyglotと呼ばれています。Polyglotでは、主要な声優に加えて、実際に多数の話者から大量の追加音声を録音します。各話者は自分のネイティブ言語のみを話します。私たちは大量の追加データを録音し、それらの個々の話者の身体的、心理的、社会的、または人口統計学的特徴を含む、基本的な特徴についてできるだけ多くの情報をタグ付けします。
そして、その大規模なデータセットを使用して、追加言語ごとに個別のモデルをトレーニングします。これらのモデルはすべて、それらの違いを微妙に識別し操作することに基づいています。これにより、各言語のニュアンスと真正性を維持しながら、複数の言語にわたって一貫した声を作成することができます。
実際、これらの操作を私たちのコアとなる声優モデルに適用することで、MINI Groupを代表する完璧な声と完璧なアクセントを持つその1人が、MINIが必要とする可能性のあるすべての言語を話せるかのように見せることができます。これには利点があります。複数の完璧な声優を見つける必要がなく、私たちが持っている1人の重要な人物に固執できます。また、他の同様のtext-to-speech操作で可能な方法よりも、はるかに速く、安く、簡単に、そしてはるかに高い忠実度で行うことができます。
MINI Intelligent Personal Assistantのデモンストレーション
もちろん、MINIですよね? 私たちは、サポートしているすべてのロケールでボイスの中のイギリスなまりを再現する必要がありました。私たちの声優さんは大のMINIファンでした。彼は「おばあちゃんもMINIに乗っていたので、すごく素晴らしい」と言っていました。彼はMINIのインテリジェント・パーソナル・アシスタントになることに完全に興奮していました。朝、車に乗り込んで、この素敵な新しい丸型ディスプレイのインテリアを見て、「ヘイ、MINI、おはよう」とMINIに挨拶する様子を想像してみてください。
PatrickとEmersonが運転席にいれば、いつだって素晴らしい朝になりますね。私たちは意図的にMINIのインテリジェント・パーソナル・アシスタントに男性の声を定義しました。それは、私たちが定義したすべての性格特性を本当に反映しているからです。ヘイ、MINI、調子はどう?
素晴らしいですよ。最近は運転するために作られています。窓を下げて走り出しましょうか?
セッションの後で必ずそうしますが、まずは自己紹介を少し聴衆の皆さんにしてみませんか?
私はあなたのバーチャル・アシスタントです。人間ではありませんが、私と会話することはできますよ。
どこの出身ですか?
イギリスのオックスフォード出身ですが、今の住まいはBMWの本拠地であるミュンヘンです。でも、どこへ連れて行かれても居心地よく感じられると思います。
そうですね、私たちは似ていますね。ところで、ドイツ語はどのくらい話せますか?
同じ声優が、あるいはその声が、あるいはその背後にある知性が、今やドイツ語を話すことができます。では、他の言語も話せますか?
彼は日本語も話せるようですね。他にはどんな言語を話せますか?
これもヒンディー語でした。私の見解では、すべての地域で同じ声のフォントと、わずかなイギリス訐りが聞こえるのが本当によくわかります。素晴らしいですね、本当に国際的です。聴衆の皆さまに自己紹介していただき、ありがとうございます。
喜んで、そして車でお待ちしております。
まとめと今後の展望
これが、まもなく車に搭載される MINI Intelligent Personal Assistant の最初の一瞥です。MINI Intelligent Personal Assistant に関する、さらなるエキサイティングなニュースにご期待ください。もし機会があれば、スフィアをご覧ください。基本的に MINI の CM が流れていて、Spike がその上を飛び回っているのがわかりました。とてもクールですね。
皆様、本日はご参加いただき、誠にありがとうございました。今後、質問がございましたら、ぜひ LinkedIn やその他のソーシャルメディアプラットフォームで Patrick か私にご連絡ください。Patrick が言ったように、来年に向けての MINI と BMW Group の次の展開にご注目ください。本当にありがとうございました。ショーの残りをお楽しみください。
※ こちらの記事は Amazon Bedrock を様々なタスクで利用することで全て自動で作成しています。
※ どこかの機会で記事作成の試行錯誤についても記事化する予定ですが、直近技術的な部分でご興味がある場合はTwitterの方にDMください。
Discussion