🚀

AI音声認識機能のQAにおける苦労と工夫したこと

2023/07/26に公開

株式会社IVRy(アイブリー)QAエンジニアの関です。
IVRy[1]は、新たにAI音声認識機能が公開されました。
AI音声認識機能は、お客様の発話内容を認識・理解し、適切な回答や提案を行うことができる電話対応が可能になっています。

音声認識は、Webブラウザや電話のテストよりも環境や発話のイントネーションなどの影響を受けやすく、その結果が変わりやすい性質があり、QAの難しさを感じました。
本記事では、IVRyの新機能「AI音声認識機能」のQAにおける苦労と工夫したことについて記述しています。

AI音声認識機能のQAの苦労と工夫について

苦労した点

①AI音声認識は、インプットの状況によって、アウトプットの結果が変わりやすい性質を持っている
Webブラウザや電話のダイヤル操作のテストでは、インプット情報によってアウトプットが想定しやすく、意図しない挙動が発生した場合は、不具合として扱われることが多いかと思います。
一方、AI音声認識では、インプット情報が、発話内容以外の要素にも影響されやすく、環境音やイントネーションなどの要素が含まれると、同じ発話内容でもアウトプットが変わることがありました。挙動の不具合なのか、インプット状況が影響しているのか、判別するのが難しく、場所や発話内容を変えてテストを実施していました。

②AI音声認識の挙動確認のテスト工数が想像以上に掛かること
AI音声認識の挙動確認のために、人力で電話をかけて実際のテストを行う必要がありました。
1通話あたりのテストに、2~3分ほどの時間が掛かるため、テスト全体の時間が長くなってしまいました。※日に30件近くの電話を掛けている日もありました。
その為、AI音声認識の挙動確認部分のテスト工数は、当初の見積もりよりも1.5~2倍に膨れていました。

工夫した点

①インプット条件の詳細な検討:
AI音声認識のテストにおいて、設計段階でインプット条件を詳細に検討しました。
具体的に、どのような要素が結果に影響を与えるのかを明確に把握することで、テストケースの優先度を切り分けることができました。実際のテストでは、影響されやすい要素を避け、正確にインプットされる状況を作り、挙動のテストを実施しました。
また、影響されやすい要素と影響されにくい要素を整理した結果、テストの解像度が上がり、より効率的なテストを実施することができました。

影響されやすい要素 影響されにくい要素
環境音 周囲が会話中 無音状態
外部の騒音(工事音など)
発話内容、話し方 方言 言葉の途切れ (えーっとなど)
小声でボソボソ話す
その他 イヤホンを使用した場合 スマートフォンの通常の通話モードでの発話
スマートフォンのスピーカーモードでの発話

②AI音声認識の設定をシンプルに:
AI音声認識の設定によって、似た発話に対して、期待とは別の対応方法が発火してしまうことがありました。そこで、AI音声認識の設定の発話内容をシンプルにし、他の発話内容とは違ったものを反映させました。これにより、似たような発話内容による期待とは異なった結果への対処が減り、テストの工数が削減されました。

次に取り組んでいきたいこと

①AI音声認識が様々な環境下においても、同様のパフォーマンスを発揮することができるか
今回、優先度を落とした影響されやすい要素を取り入れた上での音声認識のテストについても積極的に取り組みたいと思っています。
今回洗い出した要素以外にも、影響されやすいものや、されにくいものが存在すると思います。
様々な環境下でのテストを行い、さらなるパフォーマンスの向上を目指して実施したいと考えています。

ただ、毎回ノイズのある場所でテストするのは、再現も難しく、実際の状況を作ることに手間が掛かってしまいます。そのため、効率的な方法を模索しています。例えば、ノイズ環境に行き、音声を録音することで、異なる環境下のテストを効率的に行えるかを検討しています。これらを実現することで、より広範囲な状況でのテストが可能になり、AI音声認識の精度や体験が良くなると考えています。

②テスト工数削減のためのテスト自動化
IVRyでは、電話のテストを自動化するツールを実装し、活用しています。
Text-To-Speechを利用しテキストを読み上げて発話させたり、ダイヤルを使うこともできます。
AI音声認識では、発話部分を充実させることで、正常ケースや準正常ケースなどに対応できるようになると期待しています。
シナリオ作成後、スクリプト実行するだけで、テストを実行できるため、手動で発信する手間も省け、効率よくテスト工数の削減ができると考えています。

まとめ

本記事では、AI音声認識のQAにおける苦労と工夫したポイントについて記述しました。
AI音声認識は、Webブラウザや電話のテストよりも環境や発話のイントネーションなどの影響を受けやすく、その結果が変わりやすい性質があり、QAの難しさを感じましたが、それに対して、インプット条件の詳細な検討や設定をシンプルにするといった工夫を行い、効率化よく進めることに努めました。
まだまだ、QAとしての改善余地は多く、取り組むことによってAI音声認識機能の精度や体験の向上が見込められます。
苦労した部分を語りましたが、発話した内容をよしなに認識し、的確な対応をしてくれる体験はとても感動的でした。

余談ですが、IVRyでは、ChatGPTを活用したAI電話システムを開発しており、音声認識の世界はますます広がっています!(ぜひデモ体験してみてください!)
https://prtimes.jp/main/html/rd/p/000000066.000056805.html

最後に

現在、QAエンジニアを大募集しております!
Webアプリケーションだけでなく、AI音声認識など少しコアな部分のQA設計から実施・自動化まで興味のある方、新たな挑戦をしてみたい方、ぜひカジュアルにお話ししましょう!また、IVRyに興味を持った方も気軽にお話ししましょう!
https://youtrust.jp/recruitment_posts/1e232edc41d965e648095096763dd0a3

https://ivry-jp.notion.site/IVRy-e1d47e4a79ba4f9d8a891fc938e02271

脚注
  1. IVRyは、電話の自動応答サービスを提供しています。 ↩︎

IVRyテックブログ

Discussion