🔊

音声AIが切り拓く人手不足解消の未来 - Verbexの自然な会話技術とVoiceUIが実現する新しいDXの形

ケン吉

2025/11/11に公開

株式会社Verbexが開発する音声AI「VoiceUI」は、人間と区別がつかないほど自然な会話を実現する技術です。
音声AIモデルとアプリケーションを自社で一体開発することで、高速レスポンス、オンプレミス対応、低コストを実現。コールセンターや自治体窓口など、従来のDXが難しかった領域での人手不足解消に貢献しています。
方言対応や会話の自然な「間」の再現など、日本語特有の課題もクリアし、葬儀業界や自動車リース業界など多様な分野で実用化が進んでいます。
https://biz-journal.jp/company/post_392052.html

 深掘り
 深掘りを解説Verbexの技術革新の核心は、音声AIモデルとアプリケーションの垂直統合にあります。
多くの企業がOpenAIやGoogle Cloudなどの外部音声APIを利用する中、Verbexは2017年の創業以来8年間、音声技術の研究開発に取り組んできました。この長期的な投資により、以下の技術的優位性を獲得しています:
1. 超低遅延の実現

音声認識→理解→生成→発話という一連のプロセスを自社技術で完結させることで、通信オーバーヘッドを最小化。日本語では1秒、ベンガル語では0.6秒という、人間が違和感を感じない絶妙な「間」を実現しています。
2. 文化的適応性

言語ごとに異なる会話のリズムや間を理解し、それぞれの文化に適した対話を生成。方言への対応も可能で、地域性の高いサービスにも導入できます。
3. オンプレミス対応の実現

自社でLLMのトレーニングが可能なため、機密性の高いデータを扱う官公庁や金融機関でも、クラウドを経由せずに運用可能。これは外部APIに依存する企業では実現困難な強みです。
4. 感情表現の進化

単なる音声合成ではなく、声の抑揚や感情表現も制御可能。今後はクレーマー対応での感情的な応答や、高齢者向けに聞き取りやすいピッチ調整など、状況に応じた最適化が可能になります。
5. コスト構造の革新

日本とバングラデシュのハイブリッド開発体制により、高品質を維持しながら開発コストを5分の1に削減。1分100円という価格設定は、人間のオペレーター（時給1,000円以上）と比較して圧倒的な競争力を持ちます。

 深掘りを図解
 用語解説VoiceUI（ボイスユーザーインターフェース)

音声を主要な操作手段とするユーザーインターフェース。キーボードやタッチパネルの代わりに、話しかけることでシステムを操作する仕組み。
音声AIモデル

音声認識（音声→テキスト）、自然言語理解、音声合成（テキスト→音声）を行う人工知能システム。通常は機械学習により学習されたモデル。
LLM（Large Language Model / 大規模言語モデル）

膨大なテキストデータで学習された、文章の理解と生成ができるAIモデル。GPT-4やClaudeなどが代表例。
オンプレミス

クラウドサービスを利用せず、自社の施設内にサーバーを設置して運用する形態。データの外部流出を防ぎ、セキュリティを高められる。
PoC（Proof of Concept / 概念実証）

新技術やアイデアが実際に実現可能かを確認するための小規模な実験。本格導入前の検証段階。
インバウンド/アウトバウンド

インバウンドは顧客からの着信対応、アウトバウンドは企業からの発信業務を指す。コールセンター用語。
GPU（Graphics Processing Unit）

元は画像処理用のプロセッサだが、AI計算に適した並列処理能力が高く、現在はAI学習・推論に不可欠なハードウェア。
音声クローニング

特定の人物の声の特徴を学習し、その人の声で任意の文章を話させる技術。数分〜数十分の音声サンプルから生成可能。

 ルーツ・背景音声認識技術の歴史は1950年代に遡ります。ベル研究所が開発した「Audrey」が数字を認識できたのが始まりで、その後数十年にわたり研究が続けられてきました。
第一世代（1950-1980年代）

パターンマッチング方式による限定的な単語認識。IBMのShoebox（1961年）は16単語を認識できましたが、実用性は低いものでした。
第二世代（1990-2000年代）

統計的機械学習の導入により精度が向上。隠れマルコフモデル（HMM）を使った音声認識が主流に。しかし依然として静かな環境でゆっくり話す必要がありました。
第三世代（2010年代前半）

ディープラーニングの登場により認識精度が劇的に向上。Siriや Google Assistantなど、スマートフォンでの音声アシスタントが実用化されました。
第四世代（2020年代）

Transformer技術とLLMの組み合わせにより、単なる音声認識から「自然な対話」へと進化。OpenAIのWhisper（2022年）やChatGPTの音声機能により、音声AIは新時代を迎えました。
Verbexは2017年の創業時から、この第四世代を見据えて音声技術の研究を続けてきました。バングラデシュという新興国で創業した背景には、識字率の低さゆえに音声インターフェースへの需要が高いという市場特性がありました。この経験が、「声で世界をつなぐ」というミッションの原点となっています。
2022年のChatGPT登場により音声AI市場が急拡大する中、Verbexは8年間蓄積してきた音声技術の知見と特許を武器に、日本市場への本格参入を決断しました。

 技術の仕組み
 技術の仕組みを解説VerbexのVoiceUIがどのように「人間のような会話」を実現しているのか、料理のレシピに例えて説明します。
ステップ1: 音声の「聞き取り」（音声認識）

あなたが「明日の天気は?」と話しかけると、VoiceUIはまず音波を文字情報に変換します。これは、人間が耳で聞いた音を脳内で言葉として理解する過程に似ています。
Verbexの強みは、方言や訛りも正確に認識できる点。「そうやけん」（九州方言）も「そうだよね」（標準語）も、同じ意味として理解できます。
ステップ2: 意味の「理解」（自然言語処理）

次に、文字化された質問の意味を理解します。LLMが「天気を知りたがっている」「明日の情報が必要」という意図を読み取ります。
ここでVerbexの独自性が光ります。一般的な音声AIは外部のLLMを呼び出すため、インターネット経由で通信する必要があります。しかしVerbexは自社でLLMをトレーニングしているため、通信の往復がなく、瞬時に理解できます。
ステップ3: 回答の「生成」（応答作成）

理解した内容をもとに、適切な回答を作成します。「明日の東京は晴れ、最高気温は25度です」というテキストを生成します。
ステップ4: 声での「発話」（音声合成）

最後に、テキストを音声に変換します。ここが最も重要なポイントです。
Verbexは、ただ機械的に読み上げるのではなく、以下の要素を制御しています:

間（ポーズ）: 日本語なら1秒、ベンガル語なら0.6秒の自然な間を置く

抑揚: 質問文の最後は語尾を上げる、重要な情報は強調するなど

速度: 相手が高齢者なら少しゆっくり、若者なら標準速度で話す

感情: クレーム対応なら申し訳なさそうに、案内なら明るく親しみやすく
リアルタイム処理の秘密

通常、これら4つのステップを別々のシステムで処理すると、それぞれで通信が発生し、合計で3〜5秒かかってしまいます。人間の会話では、質問から回答までの間が2秒を超えると「遅い」と感じられます。
Verbexは、音声AIモデルとアプリケーションを一体化することで、すべての処理を1つのシステム内で完結させています。これにより、通信のロスがなく、人間の会話と同じスピード感を実現しているのです。
例えるなら、一般的な音声AIは「注文を聞く→厨房に伝える→調理する→配膳する」と分業しているレストランのようなもの。一方、Verbexは一人のシェフがすべてを担当する一人レストラン。分業による無駄がない分、素早く料理（回答）を提供できるのです。

 技術の仕組みを図解
 実務での役立ち方VoiceUIは、ビジネスの現場で以下のような具体的な効果をもたらします。
1. コールセンター業務の効率化
夜間・休日対応の無人化により、24時間365日のカスタマーサポート体制を構築
よくある質問（FAQ）の自動対応で、オペレーターは複雑な問題対応に集中できる
ピーク時の待ち時間削減により、顧客満足度が向上
実績：バングラデシュ政府のコールセンターで高い解決率を達成
2. バックオフィス業務の自動化
車検確認や契約更新の確認電話を自動化（オートリース企業の事例）
電話での情報収集からExcel入力まで一連の作業を自動化
人間は確認作業のみに集中でき、生産性が大幅に向上
3. 緊急時対応の迅速化
葬儀の受付から安置所・病院への連絡調整を夜間でも自動対応
人手が足りない時間帯でも、顧客を待たせることなく対応可能
従業員の負担軽減と、顧客対応の質の向上を両立
4. 接客業の人手不足解消
ホテルのチェックイン業務の無人化（バイリンガル対応）
外国人観光客への多言語対応も可能
フロント業務の効率化により、よりホスピタリティの高いサービスに注力
5. 公共サービスのアクセス向上
市役所窓口での問い合わせ対応を音声AIが補助
オンプレミス環境により、個人情報の保護も担保
高齢者でもスマホやPCが使えなくても、電話で行政サービスにアクセス可能
6. 営業活動の最適化
声のクローニング技術により、業界や取引先に合わせた声色で営業電話
大量のアウトバウンドコールを低コストで実施
商談アポイント獲得率の向上
コスト試算例（100席のコールセンター）
人間オペレーター：時給1,200円 × 8時間 × 100人 = 日96万円
VoiceUI：1分100円 × 60分 × 8時間 × 100席 = 日480万円（全時間稼働の場合）
実際には完全自動化ではなく、簡単な問い合わせのみAI対応とすることで、人件費を30〜50%削減しながら、サービス品質は維持・向上できます。

 キャリアへの効果音声AI技術を理解し、業務に活用できるスキルは、今後のキャリアで以下のような価値を生み出します。
1. 次世代DXの推進者になれる

従来のDXはデジタルリテラシーが高い領域に限られていました。音声AIは「デジタルが苦手な人」にもDXを届ける技術です。この新領域のDXを推進できる人材は、今後10年で最も需要が高まります。
2. AI時代のプロジェクトマネジメント力

音声AIの導入には、技術理解だけでなく、業務フローの再設計、顧客体験の設計、コスト試算など、総合的なプロジェクト管理能力が必要です。このスキルセットは、あらゆるAI導入プロジェクトに応用できます。
3. 業界横断的なキャリアパス

コールセンター、行政、医療、介護、ホテル、葬儀など、音声AIの活用領域は多岐にわたります。一つの業界で音声AI導入を経験すれば、他業界への転職やコンサルタントとしての独立も視野に入ります。
4. グローバル市場へのアクセス

音声AI技術は世界的に急成長している分野です。日本での導入経験は、アジア・アフリカなどの新興国市場でも価値があります。Verbexのようなグローバル企業と仕事をする機会も増えます。
5. 経営層との対話力

音声AI導入はROI（投資対効果）が明確に示せる施策です。「年間3,000万円のコスト削減」「顧客満足度20%向上」といった数値で経営陣を説得できる力は、キャリアアップに直結します。

 学習ステップ
 学習ステップを解説初心者が音声AI・VoiceUIの知識を実務で活かせるレベルまで習得するための、段階的な学習プランを提案します。
フェーズ1: 基礎知識の習得（1〜2ヶ月）

まずは音声AI技術の全体像を理解しましょう。
音声認識・音声合成の基本原理を学ぶ
LLM（大規模言語モデル）の基礎を理解する
実際のVoiceUI製品（Siri、Alexa等）を使い込む
推奨書籍を2〜3冊読む
フェーズ2: 実践的な技術理解（2〜3ヶ月）

手を動かして技術を体感します。
Google Cloud Speech-to-TextやAWS Pollyなどの音声APIを試す
PythonでシンプルなVoiceUIアプリを作成
ChatGPTの音声機能を使った業務改善アイデアを考案
自社業務でVoiceUIが活用できる領域をリストアップ
フェーズ3: ビジネス応用（3〜6ヶ月）

実務への適用を考えます。
自社のコールセンターや顧客対応業務をヒアリング
VoiceUI導入のROI試算（コスト削減効果の計算）
小規模なPoCプランを企画書にまとめる
Verbexなどのベンダーと情報交換会を実施
フェーズ4: プロジェクト推進（6ヶ月〜）

実際のプロジェクトを動かします。
社内でPoCプロジェクトを提案・承認獲得
ベンダー選定と要件定義
PoC実施と効果検証
本格導入へのステップアップ
学習時間の目安
平日: 1日1時間の学習
休日: 週3〜4時間の実践
合計: 約6〜12ヶ月で実務レベルに到達
つまずきやすいポイントと対策

技術の複雑さ: 最初から完璧に理解しようとせず、「使ってみる」ことを優先

社内の抵抗: 小さな成功事例から始め、段階的に展開

予算確保: ROI試算を丁寧に行い、数値で説得する

 学習ステップを図解
 あとがき音声AIは、もはやSF映画の世界ではありません。Verbexが実現している「人間と区別がつかない会話」は、私たちの働き方を根本から変える可能性を秘めています。
特に注目すべきは、VoiceUIが「DXが届かなかった領域」にアプローチしている点です。これまでのデジタル化は、PCやスマホを使いこなせる人を前提としていました。しかし、日本の人口の約3割は65歳以上。すべての人がデジタルツールを使いこなせるわけではありません。
音声という、人類が数万年使い続けてきた最も自然なインターフェースによって、誰もがテクノロジーの恩恵を受けられる社会。それが「声で世界をつなぐ」というVerbexのミッションが描く未来です。
コールセンター、自治体窓口、医療、介護、教育——これらの領域では、まだまだ人の手に頼る部分が多く、人手不足が深刻な問題となっています。VoiceUIは、人を完全に置き換えるのではなく、人がより価値の高い仕事に集中できるよう支援するパートナーとなるでしょう。
あなたの仕事にも、音声AIが活用できる場面があるはずです。この記事をきっかけに、ぜひ一歩踏み出してみてください。

 オススメのリソース
 Pythonで学ぶ音声認識 機械学習実践シリーズ
「音声認識」とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的としています。まず手法の目的やアルゴリズムの概要を解説し、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。

 イラストで学ぶ　音声認識　改訂第２版
深層学習を用いた音声認識技術の解説を大幅に加筆した改訂版。「どういう流れで技術が発展し、なぜ現在の技術が現時点で最良であるとされているのか」という視点を軸に、音声認識の基本が凝縮された一冊！

 対話システムの作り方 実践・自然言語処理シリーズ
VoiceUIの核心である対話システムの設計思想と実装手法を解説。ルールベースから機械学習ベースまで、様々なアプローチを比較検討できます。実務でVoiceUIを導入する際の設計指針として役立ちます。

 いちばんやさしいAI〈人工知能〉超入門
AI初心者向けの入門書。難しい数式を使わずに、AIの基礎概念を理解できます。「そもそもAIとは何か」から始めたい方、経営層やビジネスサイドの方にも読みやすい一冊です。

 DX人材の育成方法 完全ガイド: 技術革新に対応する戦略とプログラム
AI技術を実務に活かすための戦略と人材育成について解説。VoiceUIのようなAI技術を組織に導入する際の課題、プロジェクトの進め方、ROI評価の方法など、マネジメント視点での学びが得られます。

 生成ＡＩ時代の「超」仕事術大全
ChatGPTをはじめとする生成AIを、実際のビジネスにどう組み込むかを具体的に解説。VoiceUIも生成AIの一形態であり、本書で学ぶDX推進の考え方は、音声AI導入にも応用できます。豊富な企業事例が参考になります。

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

音声AIが切り拓く人手不足解消の未来 - Verbexの自然な会話技術とVoiceUIが実現する新しいDXの形

深掘り

深掘りを解説

深掘りを図解

用語解説

ルーツ・背景

技術の仕組み

技術の仕組みを解説

技術の仕組みを図解

実務での役立ち方

キャリアへの効果

学習ステップ

学習ステップを解説

学習ステップを図解

あとがき

オススメのリソース

Pythonで学ぶ音声認識機械学習実践シリーズ

イラストで学ぶ　音声認識　改訂第２版

対話システムの作り方実践・自然言語処理シリーズ

いちばんやさしいAI〈人工知能〉超入門

DX人材の育成方法完全ガイド: 技術革新に対応する戦略とプログラム

生成ＡＩ時代の「超」仕事術大全

Discussion

深掘り

深掘りを解説

深掘りを図解

用語解説

ルーツ・背景

技術の仕組み

技術の仕組みを解説

技術の仕組みを図解

実務での役立ち方

キャリアへの効果

学習ステップ

学習ステップを解説

学習ステップを図解

あとがき

オススメのリソース

Pythonで学ぶ音声認識 機械学習実践シリーズ

イラストで学ぶ 音声認識 改訂第２版

対話システムの作り方 実践・自然言語処理シリーズ

いちばんやさしいAI〈人工知能〉超入門

DX人材の育成方法 完全ガイド: 技術革新に対応する戦略とプログラム

生成ＡＩ時代の「超」仕事術大全

Discussion

Pythonで学ぶ音声認識機械学習実践シリーズ

イラストで学ぶ　音声認識　改訂第２版

対話システムの作り方実践・自然言語処理シリーズ

DX人材の育成方法完全ガイド: 技術革新に対応する戦略とプログラム