Closed4

[論文] Can Voice Assistants Sound Cute? Towards a Model of Kawaii Vocalics

kun432kun432

ちょっと古いのだが。

論文

https://arxiv.org/abs/2304.12809

音声アシスタントはかわいい声を出せるのでしょうか?「かわいい」音声のモデルに向けて

Katie Seaborn, Somang Nam, Julia Keckeis, Tatsuya Itagaki

日本の「かわいい」という概念、または可愛らしさ、脆弱性、魅力の表現は、世界的な文化輸出となっています。これまでの研究では、ロボットやバーチャルキャラクターの視覚的外観、非言語的行動、音声における「かわいい」要素が、デザインの特徴やユーザー体験の要因として探求されてきました。本研究では、音声アシスタントの音声の音声的特徴、すなわち「かわいい音声学」を分析することで、音声が「かわいい」かどうかを検討します。年齢包含的な「かわいい」のモデルを参考に、若く聞こえるものと年配に聞こえる日本のコンピュータ音声の「かわいい」さを評価するユーザー調査を実施しました。その結果、カワイイさは性別と年齢の認識(性別曖昧と少女的)およびVAの特徴(流暢さと人工性)と交差することが判明しました。私たちは、音声特性の同定と研究、認知評価、行動反応、感情報告を通じて検証されるカワイイ音声特性の初期モデルを提案します。

kun432kun432

Claude-3.7-Sonnetによる落合プロンプトの結果

音声アシスタントはかわいく聞こえるか?かわいいヴォカリクスのモデルに向けて

1.どんなもの?

このペーパーは、日本の「かわいい」という概念を音声アシスタント(VA)に適用するための初期研究です。

「かわいい」とは日本で生まれた文化的概念で、愛らしさ、弱さ、魅力などを表現するもので、世界的な文化輸出品となっています。これまでの研究ではロボットやバーチャルキャラクターの視覚的外観、非言語行動、音などにおける「かわいさ」をデザイン要素やユーザー体験の要因として探求してきました。

この研究では、「声がかわいく聞こえるか」という問いを探求し、音声アシスタントの音声の特性、つまり「かわいいヴォカリクス(声の非言語的特質)」を調査しています。かわいさを表す年齢包括的なモデルに基づき、若く聞こえる声と年配に聞こえる日本語のコンピュータ音声のかわいさに関するユーザー認識調査を実施しています。

2.先行研究を比べてどこがすごい?

これまでの「かわいい」研究は主に視覚的な要素に焦点を当てており、Lorenzの「キンドシェンスキーマ(赤ちゃん図式)」理論に基づき、大きな頭と目、丸みのある柔らかい形状などの特徴が世話行動を誘発するとされてきました。また、「かわいい」は女の子らしさや脆弱さ、従順さ、未熟さなどの社会的に構築された女性らしさの理想と結びつけられてきました。

しかし、西東らの研究により、擬人化されていない花やデザート、アクセサリーなども「かわいい」と認識されることが判明し、「かわいい」の二層モデル(社会的価値と感情)が提案されました。さらに「かわいい」は必ずしも若さと結びついておらず、笑顔の高齢者も「かわいい」と認識される「大人かわいい」という概念も存在します。

本研究の革新性は、これまでほとんど探求されていなかった「声のかわいさ」に焦点を当て、身体のない音声アシスタントにおける「かわいいヴォカリクス」という新しい研究領域を開拓している点です。

3.技術や手法の肝はどこ?

この研究では、コンピュータ音声の「かわいさ」を探るためにオンラインでユーザー認識調査を実施しました。日本語のクラウドソーシングプラットフォーム(Yahoo! クラウドソーシングジャパン)を通じて94名の参加者(女性53名、男性37名、その他4名)を募集し、主に35〜54歳の年齢層で構成されています。

調査では、CoeFont(日本のTTSプロバイダー)から11の音声と、新たに開発された3つの高齢者の日本語TTSを使用し、参加者はこれらの短い(10〜15秒)音声クリップを聞き、声の特性や社会的特質に基づいて評価しました。音声の内容として、「ありがとうございます」「おげんきですか」「あなたを愛しています」という3つのフレーズを使用し、参加者はかわいさ、人間らしさ/人工性、流暢さ、知覚された年齢(乳児から高齢者まで)、知覚された性別(女性的、男性的、両方の要素をもつ、どちらでもない)といった要素を5段階のリッカート尺度で評価しました。

4.どうやって有効だと検証した?

研究チームは、声のサンプルに対する参加者の評価データを収集し、声の特性と「かわいさ」の関係を統計的に分析しました。

結果として、いくつかの音声が「かわいい」と認識されました:「10代の少女」の声(小夜_SAYO[β])、「幼い少女」の声(なな)、「幼い少年」の声(けんしん)、そして別の「幼い少女」の声(さくら)です。分析からは、「かわいい」と評価された声は、人間らしさと流暢さが高く、人工性が低いという特徴があることが判明しました。

また、知覚された年齢と「かわいさ」の間には負の相関関係があり、若く聞こえる声ほど「かわいい」と評価される傾向がありました。特に子供(平均3.8)と10代(平均3.6)の声が最も「かわいい」と評価されました。

性別に関しては、女性的な声と性別が曖昧な声(両方の要素を持つ)が男性的な声よりも「かわいい」と評価される傾向がありました。

また、年齢と性別が交差する影響も確認され、女性的な子供や10代の声が最も「かわいい」と評価されました。

5.議論はある?

本研究の結果から、「かわいい声」の知覚は単なる社会的行動や音程、話し方だけでなく、年齢や性別といった社会的カテゴリーに関連していることが示唆されました。

特に興味深い発見は、最も「かわいい」と評価された声が、個人によって性別が曖昧(女性的要素と男性的要素の混合)と認識された点です。これは、塩川による「かわいい」の概念が曖昧で個人の解釈に委ねられているという主張や、機械が持つ性別中立性の特質と関連しているかもしれません。

一方で、視覚的な「かわいさ」では年齢を問わない(「大人かわいい」)という先行研究の結果とは対照的に、声の「かわいさ」は若さと強く結びついていることが判明しました。

これらの知見に基づき、研究チームは「かわいいヴォカリクス」の予備的モデルを提案しています。このモデルは既存の二層モデル(社会的価値と感情)を拡張し、年齢や性別などの社会的アイデンティティ特性と、流暢さや人間らしさなどの音声アシスタントの特性を含んでいます。

6.次に読むべき論文は?

本研究は「かわいいヴォカリクス」という新しい研究領域の基盤を提供しています。著者らは今後の研究方向性として以下を提案しています:

  1. 視覚的な「かわいい」属性を声の属性に翻訳する研究(音の象徴主義や異文化間の「ブーバ・キキ効果」など)
  2. 声に特有の新しい「かわいい」属性の探求(バイラビアル(両唇音)の機構を使用した非言語音など)
  3. 様々な「かわいい声」のペルソナのマッピング(「怖い」かわいい、「シャイ」で「自信のある」かわいいなど)
  4. 「かわいい」声と言葉の多様式性の研究
  5. 「かわいい」声と身体の多様式性の探求
  6. 「かわいい」声の異文化間知覚の調査

関連して読むべき論文としては、西東らの「かわいい」の二層モデルを提案した論文(Nittono, 2016)、「かわいさ」と注意集中の関係を示した研究(Nittono et al., 2012)、異文化間での「かわいい」の比較研究(Nittono et al., 2021)などが挙げられます。また、音声ユーザーエクスペリエンス分野では、Seaborn & Urakami(2021)による「声のUXを定量的に測定する」研究も参考になるでしょう。

kun432kun432

声だけならば、ある程度は「求められる声」の傾向はありそう、という風に読める。

著者の一人である Katie Seaborn さんという方の論文は音声インタラクションに関するいろいろな研究をされている方のようで、いろいろ興味深いものがある。

https://arxiv.org/search/?searchtype=author&query=Seaborn%2C+K

音声の評価について、定量的・定性的の両方からまとめてる論文とか面白そう。

https://arxiv.org/abs/2103.07108

https://arxiv.org/abs/2404.14736

このスクラップは5ヶ月前にクローズされました