Open5

Google Cloud 対話型AI

オクトオクト

はじめに

個人開発で対話型AIを使用した機能を実装したいので、メモ書きを残す。
色々できそうだけど、会話のキャッチボールができそうかとかの視点で考査する。

選択肢

公式を見る限り選択肢は下記の通りになりそう

Vertex AI Agents: デベロッパーは、データに基づいたエンタープライズ向け生成 AI エクスペリエンスを簡単に構築してデプロイできます。自然言語プロンプトのみを使用して会話型 AI エージェントを作成、モニタリングするノーコード エージェント コンソールが含まれています。

Dialogflow CX: 生成的な会話型 AI エージェントと確定的な会話型 AI エージェントの両方を構築するためのプラットフォーム

コンタクト センター AI プラットフォーム: サービスとしてのコンタクト センター(CCaaS)ソリューション パッケージ

Natural Language API: 自然言語の理解と処理

Text-to-Speech API: テキストを音声に変換します。

Speech-to-Text API: 音声をテキストに変換します

引用: 『Google Cloud の対話型 AI サービス』 https://cloud.google.com/conversational-ai?hl=ja

オクトオクト

Vertex AI Agents

フルマネージドの機械学習プラットフォーム

機械学習のステップ

  1. 学習に必要なデータを収集する。
  2. 収集したデータに欠損値補完や異常値除去などの前処理を実施する。
  3. 目的に適したアルゴリズムを使用してモデルを学習させる。
  4. 定期的に結果を評価する。
  5. 必要に応じてモデルの再学習や再構築を実施する。

Vertex AI がやってくれること

1~5まで全てのフローを1つのプラットフォーム上で一貫して行う。
→ 複雑な機械学習プロジェクトをより迅速かつ効果的に進めることができる。

強み

Google Cloudの他のプロダクトと連携することができる。
例えば、BigQueryとか。
そうすると、データはBigQueryで管理をして、機械学習モデルの構築ができたりする。

Vertex AI Studio

学習済みのAIが用意されている。
そのため、画像認識や音声分析とかいろんなAIをすぐに使用することができる。
学習済みモデルをチューニングすることも可能で、ユーザーの目的に応じて追加でデータを挿入し、さらに学習させることもできる。

音声機能

音声認識やテキスト読み上げができるみたい。
音声のアップロードもしくはその場で録音することで、上記のことができるらしい。
その逆のテキストから音声合成もできるっぽい。
ただ1回の上限が、最大10MB、60秒まで

料金

無料トライアル クレジット$ 1,000 分提供される。
(2023 年 7 月 18 日から、Vertex AI Agent Builder のアカウント登録から 1 年間)

たとえば、ユーザーが仮想エージェント(chatbot)に質問し、chatbot が応答すると、リクエストは 1 回になります。ユーザーと chatbot とのやり取りは、タスクを完了するための複数のリクエストで構成される場合があります。

参考: https://cloud.google.com/generative-ai-app-builder/pricing?hl=ja#conv_ai_pricing

参考

オクトオクト

Dialogflow CX

複雑な質問と回答の会話の流れを含む高度なやり取りに焦点を当てたサービス。
電話通信を念頭に置いて設計されている。

2つのエディション

  1. Dialogflow CX(Advanced)
  2. Dialogflow ES(Standard)

要は、規模感や複雑性の観点でどちらを活用するかっていう話っぽい。

押さえておきたい用語

以下にまとまっている。

https://zenn.dev/mochan_tk/articles/ebb05539d9b2eb#主要な用語整理

https://cloud.google.com/dialogflow/cx/docs/basics?hl=ja

料金

エディションおよびその月に行われたリクエストの数に基づいて、月単位で請求される。
ESエージェントの料金体系の方がややこしい。

CXエージェント

ESエージェント

参考: https://cloud.google.com/dialogflow/pricing?hl=ja

参考

オクトオクト

コンタクト センター AI プラットフォーム

主にコールセンター用のサービスっぽい。
名前の通り、コンタクトセンターの課題を解決するため生まれたサービス。
課題 = 需要の増加、新しいチャネル、ピーク時間、オペレーション上の制約

他サービスとの連携

主に連携するサービスは3つらしい。

  1. Dialogflow
  2. Agent Assist
  3. CCAI Insights

Dialogflow

複雑なチャットや音声の仮想エージェントを構築できる。
順番待ちをすることなく、24 時間年中無休で利用できる。
お客様と自然に会話し、問題を特定して効果的に対処できる。

Agent Assist

AI を使用して人間の担当者とお客様の間の音声とチャットの会話を「聞き取り」、過去の会話、ナレッジベース、経験豊富なエージェントのベスト プラクティスに基づいて、エージェントにリアルタイムのガイダンスと推奨事項を提供する。

CCAI Insights

コンタクト センターでのお客様の会話をすべて保存して分析し、お客様のクエリ、エージェントのパフォーマンス、感情傾向、自動化の可能性に関するリアルタイムの実用的なデータポイントを提供する。

参考

https://cloud.google.com/blog/ja/products/ai-machine-learning/google-cloud-contact-center-ai-platform-now-ga
https://atlax.nri.co.jp/google/contact_center_ai/

オクトオクト

Natural Language API

テキストを抽出、分析、保存する機械学習を使用して、テキスト分析をする。

3つのソリューション

  1. AutoML
  2. Natural Language API
  3. Healthcare Natural Language AI

AutoML

Vertex AI を使うっぽい。
高品質な独自のカスタム機械学習モデルをトレーニングし、感情の分類、抽出、検出が可能になる。

Natural Language API

感情分析、エンティティ分析、エンティティ感情分析、コンテンツ分類、構文解析などの機能を利用できる。

Healthcare Natural Language AI

構造化されていない医療文書に保存された知見をリアルタイムで分析する。

できること

AutoML

ドキュメント内のエンティティを識別し、ドメインごとのキーワードやフレーズに基づいてラベル付けする。
ドメインごとの感情スコアに合わせて、テキストのブロック内で示されている全体的な意見、感情、態度を読み取る。
独自のトレーニング データを使用してラベルを作成し、個別のユースケースに対応したモデルをカスタマイズできる。

Natural Language API

構文解析
領収書、請求書、契約書などのドキュメント内のエンティティを識別し、日付、人、メディアなどのタイプでラベル付けできる。
テキストのブロック内で示されている全体的な意見、感情、態度の感情を読み取る。
事前定義された 700 種類以上のカテゴリでドキュメントを分類できる。

料金


https://cloud.google.com/natural-language/pricing?hl=ja