😸

「具体情報を落とさない」SecureMemoCloudのAI要約紹介

2024/04/09に公開

はじめに

Nishikaは「テクノロジーですべての人が誇りを持てる社会の実現」をビジョンに掲げ、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていき、皆の仕事の付加価値・業務効率を向上させることに貢献したい」と考えています。その一環として、AI音声認識サービス「SecureMemo」「SecureMemoCloud」を開発しています。

SecureMemoCloudは、他のAI音声認識サービスと一線を画した、高い精度の音声認識AI・要約AIが特徴です。本記事では、SecureMemoCloudのAI要約機能について紹介します。

SecureMemo / SecureMemoCloudとは?

SecureMemo[1]は完全オフライン環境への導入に対応したAI文字起こしソフトウェアです。ユーザーのPCで処理がすべて完結し、外部ネットワークから遮断された環境で音声の文字起こしが可能であり、主に警察、医療機関、官公庁、学校、民間企業の経営企画・IR部門といった機微な情報を含む会議が行われるお客様にてご利用いただいています。

世界最高水準の精度94.7%(WER : 単語誤り率5.3%)を誇るOpenAI Whisperをベースに、Nishikaが独自のチューニングにより実用上の課題を解消した音声認識AIを使用しており、圧倒的に高い精度の文字起こしが可能です。文字起こしのみならず、Nishika独自のAIによる音声区間検出・話者音声からの特徴量抽出を使った完全自動の話者識別が利用できます。

SecureMemoはオンプレ環境で使用できることが強みですが、搭載している文字起こしAIの精度や話者識別機能に対しても評価していただいておりました。そのため、より多くの方に利用していただくため、Webブラウザから利用できるSecureMemoCloud[2]をリリースしています。

SecureMemoで搭載するAI機能にとどまらず、文字起こし結果に対して生成AIを適用する機能を搭載しています。その生成AI機能の1つが、今回紹介するAI要約機能です。

SecureMemoCloud機能 : AI要約機能

生成AIを活用し、会議録に特化した形式の2種類の要約を提供しています。
会議に参加していなかった人向けの概要を掴む「全体要約」と、会議に参加していた人向けに詳細の抜け漏れチェックを行う「トピック別要約」です。

1)全体要約

全体要約は会議に参加していない人でも、まず文字起こし結果全体の概略をつかめるように設計された要約です。少ない分量ながら、具体的な場所や時間などの重要な情報を落とさないように設計されています。

## 全体要約
### 展示会全般の準備と運営
展示会のシフト割り振りは来週の火曜から21時までの間で行われ、
参加者は後ほど共有されるベッドシートで自分のシフトを確認するよう
指示されました。DX総合エキスポでは、展示会の概要と準備状況が議論され、
東京ビッグサイトでの開催、来場予定人数約2万人、ブースサイズの縮小、
セキュアメモとセキュアメモクラウドのベータ版紹介、チラシ作成などが取り上げられました。

### 展示会の訪問予約と商談管理
訪問予約と名刺交換の仕組みに関して、初日と2日目に予約が集中しており、
無料リードスキャナを利用した名刺交換の便利性が強調され、
リンクの作成とスマホでの読み取りテストが提案されました。
商談の評価と進行については、5段階評価システムの導入と顧客の関心度
に応じた戦略の検討、具体的なアクションアイテムの設定が議論されました。

2)トピック別要約

トピック別要約は、会議参加者が知りたい要点やToDoを確認するための要約です。
会議で話されていたトピックとその説明、さらにその要点とTodoを要約します。

## トピック別要約
### DX総合エキスポの概要と準備状況
DX総合エキスポについての概要と準備状況が議論されました。
展示会は東京ビッグサイトで開催され、来場予定人数は約2万人です。
前回と同様の規模で、ブースのサイズは少し小さくなっています。
セキュアメモがメインの展示内容で、新たにセキュアメモクラウドの
ベータ版も紹介されます。チラシの作成も含め、準備が進められています。

■ 要点
- DX総合エキスポは東京ビッグサイトで開催され、約2万人の来場が予定されている。
- 展示内容はセキュアメモがメインで、セキュアメモクラウドのベータ版も紹介される。
- ブースのサイズは前回より小さく、目標を持って準備が進められている。
■ ToDo
- セキュアメモクラウドのベータ版をアピールするためのチラシを新たに作成する。

このように1)全体的な要約、2)トピックに関する要点やTodoを挙げる階層的な要約を提供することにより会議の詳細を知る参加者、会議の詳細がまだわからない非参加者が効率よく会議について情報をつかむことが可能です[3]

SecureMemoCloud要約の特徴

SecureMemoCloudのAI要約の大きな特徴として、「具体的な情報」を保持した自動要約が可能という点があります。様々なAIが開発される今日ではありますが、音声から具体的な情報を保ったまま要約をするのは、実は依然として容易ではありません。

課題点1 : AI文字起こしの精度

要約を行う対象の文章の質が悪いと、要約の質も低下してしまいます。
文字起こしをAIが行なったとき、AIによっては発言の音量が小さい場合にその発言が漏れてしまったり、一般的ではない単語に対応できないなどの問題が生じ、文章の質が悪くなる傾向があります。他サービスのAI文字起こしと人間が行った文字起こしの結果の比較をしながらこの課題を実際に見てみましょう。

人間の文字起こし例

タイムスタンプ 文字起こし
10:46 メールとかユーチューブサービスみたいな
10:51 メールを使って
10:43 そういうのとセキュアメモを外で使うのとどっちが資源とか
10:59 セキュアメモを外で?
11:00 セキュアメモクラウド08を使うのとこういうGmailとか
11:08 ああ、Gmailというとかのサービスとセキュアメモの比較ですね
11:12 わかりやすいものと比較してね そんな変わらないですよってみたいに言えたら楽だと思うんですけど

他サービスのAI文字起こし例

タイムスタンプ AI文字起こし
10:45 ちなみになんかメールとかってやっぱ例えばユーチューブサービスみたいな感じ
10:51 エースを使ってうん。
10:53 そういうのとやるのちょっとですかみたいなどっちが主権とかわかるんだっけやめもちょっと席あのクラウド使うのと、こういうジーメールとか使うので。
11:08 Gmailというサービスと敵雨クラウドの施策をね
11:13 分かりやすいものと比較して、まあそんな変わんないっすよみたいなって言ったら、楽だからちょっと思ったんですけど。

人間が文字起こしした際と比較して、他サービスのAI文字起こしには、上手く文字に起こせていない箇所があります。
例えば、本来であれば音声には弊社のプロダクトSecureMemo(セキュアメモ)という固有名詞が含まれているのですが、このサービスではそれを起こせていません。
また"エースを使ってうん"のような文脈上おかしな文字起こしもされています。

課題点2 : 長い音声により落ちる具体情報

要約の精度が落ちる要因として、対象とする音声(文章)の長さがあります。
文章が長い場合、既存のAIによる要約では音声に存在するトピック1つ1つの具体性が下がってしまいます。

例えば、他サービスのAI要約を使った場合のTODOの要約を見てみます。
対象とするのは先日弊社が参加したDX総合エキスポにおける事前準備の会議音声です。

TODO
- 展示会のシフト確認と振り返り
- ウェブ会議のURLの共有
- DX総合エキスポの出店内容の確認
- セキュアメモとセキュアクラウドのアピール方法の検討
- 訪問予約の対応計画
- 展示会での声かけの練習
- 展示会の目標設定
- リードスキャンの使用方法の確認と練習
- リード情報のタグ付けとメモの記入方法の確認

TODOの要約結果をみると、何をするかはわかるものも、なぜそのタスクを行うのかという背景が分かりません。TODOを行う上で気になる期限についての情報もなく、それを詳しく知るには文字起こしの結果を人手で見なければなりません。

SecureMemoCloud AI要約の性能

SecureMemoCloudに搭載されているAI要約機能では上記の課題をクリアし、具体的な情報を保った要約を行うことが可能です。

課題点1 音声精度の観点では?

まず課題点1で上げた"音声認識の精度"を先ほど他サービスの文字起こしを行ったのと同じ音声で見てみます。

SecureMemoで文字起こしされる文章

タイムスタンプ AI文字起こし
10:46 メールとか
10:48 ユーチューブサービスみたいな
10:51 メールを使ってそういうのと
10:55 セキュアメモを外で使うのと
10:57 どちらの資源とか
10:59 セキュアメモを外で
11:00 セキュアメモクラウドを使うのと
11:02 こういうGmailとか
11:08 Gmailというサービスと
11:10 セキュアメモクラウドの比較
11:12 わかりやすいものと比較して
11:14 そんな変わらないですよみたいな
11:16 って言えたら楽だったと思ったんですけど

すると、他サービスでは文字起こしできていなかった"セキュアメモ"のような特有な固有名詞であっても文字起こしすることができています。また、文字起こしの誤り自体も少なくなっています。これにより、文字起こしが原因で具体的な情報が抜けるのを阻止できています。

課題点2 : 長い音声により落ちる具体情報の観点では?

次に課題点2で挙げた"長い音声の中で抜け落ちる具体情報"についても、トピック別要約を使うことで対処しています。

SecureMemoにおけるトピック別要約

## 営業資料の準備と展示会での戦略に関する議論
会議では、営業資料の準備と展示会での戦略について議論されました。
具体的には、営業資料の必要性、展示会でのチラシ配布の量と戦略、
ブースの配置とその影響、および関連する技術や製品の説明方法について話し合われました。

■ 要点
- 営業資料はカンペのように使える方が良いとの意見があった。
- 展示会でのチラシ配布量について、過去の経験からの反省点が共有された。
- ブースの配置や周囲の状況が展示会での注目度に影響するという認識があった。
■ ToDo
- 営業資料の準備を今日中に行う。
- 展示会でのチラシ配布戦略を再検討する。
- ブースの配置と展示戦略について、さらに詳細な計画を立てる。

## セキュアメモの機能と記録方法に関する質問と説明
会議では、セキュアメモの機能と記録方法についての質問と説明が行われました。
具体的には、セキュアメモの使用方法、クラウドとオンプレミスの比較、
価格帯、リアルタイム実装の予定、そしてセキュアメモの記録内容の移動可能性に
ついて話し合われました。

■ 要点
- セキュアメモはクラウドとオンプレミスの両方で利用可能であり、
クラウドの方が一般的にコストが低い。
- セキュアメモのリアルタイム実装は数ヶ月以内に予定されており、
GPUを使用するオンプレミスでも利用可能になる。
- セキュアメモの記録内容の移動方法については不明であり、
詳細を知るためにはさらなる調査が必要。
■ ToDo
- セキュアメモの詳細な機能と記録方法について調査し、次の会議までに報告する

上に挙げたトピック別要約は、ToDoに加えて、そのToDoが何のトピックに関するものか、どういう背景があって行うことになったのかという情報も与えてくれます。
さらに、期限があるようなTODOについてはその期限も保持して要約が行われます。
そのため、具体的な行動を行うための会議録を作成するためのツールとして期待できます。

要約の具体性について定量比較

最後に、要約が具体的な情報を保っているかを表す定量的な指標として、"固有名詞の数"を使用して他サービスと比較してみました。
要約の中で固有名詞の数が少ない場合、文章があいまいで不確実性があると言え、固有名詞が多い場合ほど、文章に確実性(具体性)があると考えることができます。

比較対象としたのは課題点2で使用したDX総合エキスポについての社内音声です。
すると、NishikaのAI要約は他社サービスの要約よりも1.5倍ほど多くの固有名詞を要約に含めていました。

終わりに

SecureMemoCloud搭載のAI要約機能について本記事では紹介いたしました。
SecureMemoCloudには現在無料で体験できるフリープランがあります。
是非、お手元で実際に体験してみていただければと思います。

https://securememo-cloud.com/

参考

[1]https://info.nishika.com/service/securememo

[2]https://securememo-cloud.com/

[3]https://arxiv.org/pdf/2307.15793.pdf

We're hiring!

Nishikaテックチームでは、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていく」を目指し、音声AIプロダクトの開発・生成AIを活用した課題解決ソリューションの構築を行なっています。
興味をお持ちいただけた方は、以下リンクからご応募お待ちしています。インターンも募集しております!

https://nishika0507.notion.site/Careers-at-Nishika-25c33efd5f5f43fe99018c8a16ea4444

Nishika Tech Blog

Discussion