🔊

Wordの文字起こし（トランスクリプト・ディクテーション）機能を試してみた

2023/05/02に公開

機能自体は結構前にリリースされていたようですが、Word Onlineでは音声データの文字起こし（トランスクリプト）機能とリアルタイム文字起こし（ディクテーション）機能が使用できることを最近知りました。
すでに利用方法の記事は何件も出ていますが、自分の備忘録も兼ねて使った感想をまとめてみます。

概要

Word Online上のトランスクリプト機能とディクテーション機能の使用方法、使った感想などを雑多にまとめてます。

利用環境

OS：windows10 Home 22H2
Microsoft 365 Business Standard

基本的には、Web版のWordであるWord Onlineが使える環境であれば利用可能と思われますので、Microsoft 365 Business Basicのライセンスをお持ちの方でも利用できると思います。
※改めてライセンス契約される場合は別途詳細をご確認ください

機能の概要

文字起こし機能として、トランスクリプトとディクテーションという2つの機能があります。
以下にその概要を記載します。

トランスクリプト

1つ目が、トランスクリプトと呼ばれる音声データから文字起こしを行うものです。
こちらの場合、リアルタイムでの文字起こしはできませんが、ICレコーダーなどで録音した音声データをアップロードすることで文字起こしをすることが可能です。
また、後述しますが、ICレコーダーなどを使わず、Word Online上から録音を行うこともできます（この場合もあくまで録音するだけであって、リアルタイムでの文字起こしは行いません）。

アップロードできる音声ファイルの形式は公式サイトの説明を引用していますが、以下の４種類になります。

トランスクリプトは現在、.wav、.mp4、.m4a、.mp3 形式をサポートしています。

ディクテーション

もう一つの機能として、ディクテーションと呼ばれるリアルタイムでの文字起こし機能があります。
こちらは、デスクトップ版Wordでも使用可能です。

２機能の比較

トランスクリプトとディクテーションの文字起こし時の大きな違いとして、以下が挙げられます。

話者の識別
タイムスタンプの付与
音声データアップロード時の月間制限

話者の識別、タイムスタンプの付与は以下のトランスクリプトの結果を見てもらえば分かるように、
話者 1、話者 2といったように、Word側で自動で話者の分析・判別を行ってくれます。
これも後述しますが、話者1をAさんといったように一括変換も可能です。

また、それぞれの発言にはタイムスタンプが自動で付与されるため、どのタイミングに発言を行ったかも後で追うことができます。
これらはディクテーションではできないため、トランスクリプトのみの機能になります。

音声データアップロード時の月間制限については、トランスクリプト機能で音声データをアップロードする場合、1 か月あたり 300 分の制限があります。
なお、Word Online上で録音を行い、そのデータをトランスクリプト機能で文字起こしする場合はこの制限の対象外のようです。

利用方法

Word Online上で新規ファイル作成

まず、OneDriveまたはsharePoint上から、新規ボタンをクリックし、Wordドキュメントを選択します。

Word　Onlineが起動しますので、必要に応じてファイル名を変更ください。

メニュー内の右の方にある、🎙アイコン右の下矢印🔽ボタンを押すと、ディクテーションとトランスクリプトの選択肢が出てきます。

トランスクリプトによる文字起こし

先ほどの画面で、トランスクリプトをクリックすると、音声をアップロードと録音を開始の2つのボタンと、画面下部に今月の残りアップロード可能音声データの時間が表示されています。
今回の画像の場合、300分中42分使用済みという意味になります。

音声をアップロード

音声をアップロードボタンを押した場合、ファイル選択画面が表示されるので、ローカルにある音声データを選んでアップロードします。

その後、Word側でアップロード処理と解析処理が行われます。
掛かる時間については、長さが同じ音声データでも会話の量によっても変わる可能性があるため一概には言えませんが、自分がアップロードした10分ほどの音声データでは1分も掛からず、文字起こしが完了しました。

次に、文字起こしのデータを適宜修正していきます。
それぞれの段落をクリックすると、編集モードになります。

話者1の項目は名前を変更してすべて修正にもチェックを入れることで一括で名前を変更可能です。
文章の部分もそのまま修正ができます。
また、タイムスタンプの部分（今回は00:00:00の部分）をクリックすると、この段落の部分の音声が流れます。

文字起こしが怪しい部分は音声を個別に再生し、適宜修正していく流れで進めていく形になります。

そして、一通り修正が完了したら、ドキュメントに追加ボタンをクリックし、Wordの本文にデータを追加します。
この時、テキストに加えて話者やタイムスタンプもテキストに付与するかを選択します。

この流れで作業を進めていった場合、残りアップロード可能音声データの時間は短くなります。
（実際、今回も8分間消費されていました）

録音を開始

録音を開始の場合、ボタンを押した直後に録音が始まります。
録音中に🎙ボタンを押した場合は、録音の一時停止状態になります。

今すぐ保存してトランスクリプトを作成ボタンをクリックすると、先ほどと同じ流れで音声データのアップロードと解析処理が行われます。
基本的には、この後の処理は音声をアップロードの場合と変わりませんが、アップロード可能音声データの時間は消費されません。

ディクテーションによる文字起こし

ディクテーションを選択した場合、そのまま文字起こしが始まります。

上の画像状態では、ディクテーションはしていないので、その場合は🎙マークをクリックして、下の状態になることを確認してください。

また、⚙のアイコンをクリックすると、言語設定やマイクデバイスの選択、句読点の自動挿入の有効・無効などが設定できます。

前述したとおり、ディクテーションの場合は話者の識別やタイムスタンプの付与はされないため、実行中はひたすらWord上に文字起こしされた文章が出力されていきます。

出力される文章を眺めた感じですが、音声を単語毎に文字起こししてそのまま出力するだけではなく、文章の区切りまで読み取って、ある程度文章がつながるように修正を行っているように見えました。
そのおかげもあり、漢字の変換などはそれなりに正しい変換がされていました（もちろん誤変換もある）。

所感

ここからは、それぞれの機能を使ってみた自分の主観評価になります。
参考レベルにとどめてもらえればと思います。

使った感想

全体的に精度はそこそこ高いと感じた
特に話者の分別は正確にできているように感じた
複数の人が同時に話す場合は話者分別は難しい
話し始めや話し終わりに声が小さくなると文字起こしされないことがある
人名は文字起こしに失敗（漢字変換など）することが多いため、手直しが必要と考えた方が無難

利用に適するタイミング

先ほどの感想をもとに、どういったタイミングに適しているかを検討すると、

⭕質疑応答
⭕話す順番が厳密に決まっている会議
❌複数名によるフリートーク
❌ネタ出し、アイデア出しなど各自が好きなタイミングで発言できる会議

のように、一人ずつ他の人とかぶらないように発言があるものについては、
文字起こしの精度が高くなると思われます。

利用できそうなシーン

議事録作成が必須の厳粛な会議において、
トランスクリプト機能を用いた文字起こしデータを議事録のベースとして使用する
といった使い方が利用に適していると感じました。

その他

音声データアップロード制限の解除タイミング

音声データアップロード時は月間で300分の制限があると記載していましたが、
こちらについては、毎月1日の日付変更時のタイミングではリセットされませんでした。
夕方頃（1日の18時頃）に確認したところ制限時間がリセットされていたため、
毎月1日にリセット自体は行われるようです（アメリカの日付変更時に合わせている?）

音声データアップロード時の月間制限の解除方法

公式ページには以下の記載があり、音声データアップロード時のトランスクリプトの制限時間を無制限にすることも可能なようです。
ただし、エンタープライズのお客様の対象範囲は調べても分かりませんでした。

注: エンタープライズのお客様は要求に応じて、
アップロードされたオーディオのトランスクリプトを無制限に利用できます。

制限時間を無制限にするためには、サイト内にあるアップロード時間 (分) の制限解除の要求フォームにアクセスし、
名前やmail、テナントIDを入力する形になります。
申請を行った場合、30日以内に制限が解除されるようです。
なお、この解除申請はユーザー毎ではなく、テナントID毎に実施する形のようです。

自分のMicrosoft 365 Business Standardのライセンスが対象かは不明でしたが、とりあえず申請を行ってみました。
こちらについては、制限が解除された場合はこの記事に追記する予定です。

(2023/06/08追記)

メールに気づくのが遅れたのですが、5/22に限定解除のメールが届いてました。
実際に、Word Online上でトランスクリプトメニューをクリックすると、
以下の説明文があり、300分の制限が解除されているように見えます。

プレビュー
トランスクリプト用に音声を無制限にアップロードできるようになりました。
これは今後変更される可能性があるため、今すぐお試しください。

5/1前後に申請を行っていたはずなので、ちゃんと1か月以内には解除されるようです。

文字起こし時の音声データの取扱い

会議の音声データなど企業秘密に関わる内容もあるため、データを外部に送るのは難しい場合もあるかと思います。
文字起こしに使用する音声データについては、先ほどの公式サイトに以下のような記載があります。

お客様のオーディオファイルは Microsoft に送信され、
このサービスを提供するためだけに使用されます。
トランスクリプトが完了すると、音声とトランスクリプトの結果は
Microsoft のサービスによって保存されません。

社内会議等で利用する場合、この内容をもとに、社内での使用ルールを定めておくといいかもしれません。

おわりに

何番煎じか分かりませんが、知ったのがつい最近なので自分の備忘録と使い方の整理の意味も含めて記事にまとめてみました。
最後に、参考になった他の方の記事のURLを紹介して終わります。

以上

GitHubで編集を提案