🦁

“なんちゃってERP” に音声自動応答を組み込むまでの調査メモ(Twilio vs Amazon Connect)

に公開

TL;DR

  • 電話問い合わせを 番号選択+自由発話 → 文字起こし → CRM 起票 → Slack 通知 まで全自動化したい
  • Twilio + OpenAI と Amazon Connect + Contact Lens を比較
  • コスト・連携性・将来の受託案件を見据え AWS 構成(Amazon Connect 採用)が有利 と判断
  • 実装は マイクロサービスサーバーレスで段階的に進める予定
  • 本記事は調査メモ兼アーキテクチャ草案。随時アップデート予定

1. 背景と目的

個人事業主として “なんちゃって ERP パッケージ” を開発中です。
受託開発とエージェントのコンサル業務を個人で担当しており、徐々に業務を自動化していきたいと考えています。
主な機能は リード獲得 → 営業パイプライン → 契約 → バックオフィス業務 を自動でつなぐこと。
更に 電話問い合わせ対応 を自動化し、

  • IVR(番号選択)自由発話 で受電
  • リアルタイム文字起こし
  • CRM 起票
  • Slack 通知

までノータッチで回る仕組みを入れたい、というのが今回のテーマです。


2. 候補サービスと特徴

種別 主な機能 メリット
Twilio Studio ローコード IVR/SMS/WhatsApp ワークフロー 数クリックでフロー作成。Functions で外部 API 呼び出し簡単
OpenAI Audio API 音声⇄テキスト双方向(Whisper / GPT-4o 系) 1 エンドポイントで STT/TTS。ストリーミング可
Amazon Connect フルマネージド・クラウドコンタクトセンター “電話機一式” が数クリックで準備完了。小規模は従量課金
Contact Lens Connect 専用 AI 解析(STT+感情/要約) PII マスキング内蔵・要約追加料金ゼロ
AWS Step Functions / EventBridge サーバーレスオーケストレーション “受電 → Lambda → Slack” をノーコードに近い形で構築

3. 音声認識精度 & レイテンシ比較

指標 Twilio + OpenAI Amazon Connect + Contact Lens
モデル Whisper 系(gpt-4o-transcribe)
平均 CER 4–5 %(2025/06 時点)
Transcribe 基盤
日本語 CER 約 6 %
ストリーミング遅延 ≒ 300 ms(β) ≒ 400 ms
多言語 50+ 言語、自動検出可 100+ 言語、自動検出は一部リージョン限定

CER = Character Error Rate
どちらも “電話口の日本語” で 95 %以上の正字率らしい。
IVR ならどちらでも問題なしと判断。


4. コストモデルと損益分岐

構成要素 Twilio Amazon
音声接続(受電) 国内受信 $0.0105/分 同等(¥0.018/分
STT 料金 Twilio Real-Time $0.027/分 + OpenAI Audio $10–40/1M token Contact Lens $0.015/分(5 M 分超は $0.0125)
生成 AI 要約 Chat Completion Token 課金 Contact Lens 要約 追加料金なし

毎月 2,000 分 程度までは コスト差ほぼ同じ
→ 月 5,000 分超えると Contact Lens に軍配。


5. セキュリティ & コンプライアンス

項目 Twilio Amazon
暗号化 At-Rest (AES-256) / In-Transit (TLS) 同等 + S3 SSE-KMS をネイティブ適用
PII マスキング Moderation API or 独自正規表現 Contact Lens 自動 PII Redaction
リージョン 東京リージョンなし(SGP/SYD 近接) ap-northeast-1 (東京)

日本拠点の顧客情報取り扱いを考えると リージョン面で Amazon が優位


6. 採用方針

  • 全部 AWS 基盤: 作成予定のなんちゃってERP も Aurora / S3 / Lambda / OpenSearch を使用
  • 受託案件でも “AWS Contact Center 構築” ニーズが増加
  • 料金は利用規模に応じて Amazon の方が逓減

以上より Amazon Connect + Contact Lens + Step Functions を採用する。


7. アーキテクチャ草案

7-1. 電話問い合わせフロー

フルサイズ版

7-2. Web-to-Lead 自動化フロー

フルサイズ版

7-3. なんちゃって ERP 全体像

フルサイズ版

7-4. なんちゃって ERP 全体フローイメージ

フルサイズ版

さいごに

今回の記事では、エントリー部分の機能として実装を予定している音声自動応答システムの構成検討時点の調査内容を記載しました。
それぞれをマイクロサービスとして実装し、徐々に自動化部分を広げていく予定です。
各サービスの実装タイミングでより詳細な記事は書けたら良いなと考えています。

Discussion