📝

[Dify] 会議の議事録を効率的に書く方法

2025/01/21に公開

Dify で会議の議事録を書く

LLM(大規模言語モデル)は、自然言語処理の能力を活用して、多くのタスクを効率化する強力なツールです。中でも会議の議事録作成は、その実用性が顕著に現れる分野の一つです。議事録作成は時間と労力を要する作業ですが、LLMを活用することで、音声データや会議内容の要点を迅速かつ正確に整理することができます。

本記事では、Dify を使った議事録作成の基本的な流れや、具体的な活用例について解説します。例えば、文字起こしツールと組み合わせて会議の音声データをテキスト化し、その後要約やアクションアイテムの抽出をLLMに任せることで、大幅な効率化を図ることができます。また、テンプレートを活用したフォーマットの自動生成や、内容の整理をさらに進める方法もご紹介します。

Dify で議事録を書く流れ

  • 会議の録音データを文字起こしする
  • 文字起こしされたテキストに対して、整理や要約を行う
  • 作成された議事録を共有する

前準備:モデルプロバイダーを設定する

Dify で「音声 to テキスト」の入力に利用する、デフォルトのモデルを設定します。

右上部のアカウント名をクリックし、設定をクリックします。

モデルプロバイダー、システムモデル設定、と進み「音声-to-テキストモデル」のデフォルトモデルとして、whisper-1 を選択します。

Whisper-1 は、OpenAI が開発した音声認識モデルで、高精度な音声文字起こしと翻訳を実現します。多言語対応で、音声から直接テキストを生成し、雑音や異なるアクセントにも強い性能を発揮します。

文字起こしを行うワークフローを作成する

スタジオを開き「最初から作成」をクリックして始めます。

アプリの種類は、ワークフローを選択。

アプリのアイコンと名前、説明を入力してください。

例:

アプリの名前:
議事録作成ワークフロー

説明:
音声データから議事録を作成します

アプリが作成されると、開始ノードのみが存在するワークフローの編集画面が表示されます。

ここから、音声データを受け取って、LLMで文字起こしを行うワークフローを作成していきます。

開始ノードで音声ファイルの受け取りを設定する

開始ノードでは、入力フィールドとして、ワークフローで使用できる入力を設定することができます。開始ノードをクリックすると、設定画面が表示されます。

入力フィールドの右側にある + ボタンをクリックすると、新しい入力を追加できます。
フィールドタイプは単一ファイル
変数名(任意の名前)とラベル名には、audioとつけました。
サポートされたファイルタイプは、音声を選択。
アップロードは、ローカルアップロードとURLの両方に対応します。

今回は、議事録を作成することが目的であり、音声ファイルは必要なので、必須にチェック。
これで保存します。

これで音声ファイルの受け取りの設定が完了しました。開始ノードで行うことがわかりやすいように、説明に、「会議や議論の音声ファイルを入力として受け取る」と入力しておきましょう。説明に入力した内容は、ノードの下部に表示されます。

次に、受け取った音声ファイルを、LLMを用いて文字起こしします。
画面下の、+ ボタンをクリックし、ブロック・ツールの追加ウインドウを開きます。
文字起こしを行うノードは、ブロックではなく、ツールの方にデフォルトで組み込まれています。

Speech To Text ツールを見つけてクリックします。

Speech To Text ツールが追加されたら、開始ノードと、Speech To Text ノードを連結しましょう。これで、開始ノードの出力 ( 今回は音声ファイル ) が、Speech To Text ノードの入力で利用できるようになります。

次に、Speech To Text ノードをクリックして設定画面を開きます。
ここで必要な入力変数は、音声ファイルと、利用するモデルの2つです。
音声ファイルには、先ほど開始ノードで入力された音声ファイルを選択します。
また、モデルには、Whisper-1 を選択します。
ノードの説明には、「音声ファイルを文字起こしする」としておきます。

一旦テストしてみる

ここまでの流れが動作するかテストしてみましょう

開始ノードを選択して、上部の実行ボタンを押します。すると、Test Runというテスト用のウインドウが開きます。音声ファイルをアップロードして、”実行を開始”をクリック

数秒で完了します。
トレースタブを開くと、各ノードの入力、出力を確認できます。
トレースタブの、Speech To Text を開くと、出力のtext プロパティに、文字起こしされたテキストが出力されていることが確認できます。

文字起こしのデータを使って、議事録にまとめる

次に、文字起こしされたテキストを利用して、議事録を作成します。スタジオ下部の + ボタンをクリックし、LLMブロックを追加しましょう。

文字起こしされたテキストを利用するため、Speech To Text ノードを、LLMノードに連結します。

LLMノードをクリックし、LLMノードの設定を進めます。
利用するモデルには、OpenAIのo1-miniを選択しました ( 実際の利用では、求められる品質、精度に応じて、より高品質なモデルを選択してください )。

次にコンテキストとして、LLMが用いる知識をインポートします。

利用できる変数の中から、Speech To Text の x{text}を選択します。これで、LLMに渡すプロンプトの中で、Speech To Text ノードが生成した文字起こしデータ ( テキスト ) を利用できます。

次に、LLMに渡すプロンプトを入力します。
コンテキストで選択した変数を利用するには、/ を入力するか、右上の {x} ボタンを押すことで、目的の変数を挿入できます。

以下は会議の議事録です。この内容を基に、要点を簡潔にまとめてください。特に以下の項目を明確にしてください:

  1. 会議の目的
  2. 主要な議題とそれに対する結論または進捗
  3. 次回のアクションアイテム(担当者と期限を含む)
  4. その他重要なポイントや決定事項

議事録:
{x}

LLMノードの説明には、文字起こしテキストから議事録を作成する、としましょう

終了ノードの追加とアプリの公開

以上で、音声データからの文字起こし、そして文字起こしテキストからの議事録作成が行えました。最後に、終了ノードを追加します。スタジオのブロック追加ボタンから、終了ノードをクリックし、先ほどのLLMノードと連結します。

終了ノードでは、このワークフローが最終的に出力する内容を設定します。
変数として、先ほど作成したLLMのtextプロパティを選択します。
ノードの説明には、LLMのノードの出力内容を、終了ノードの出力とする、としておきます。

これで開始から終了までのワークフローが完成しました。再び実行してみましょう。
結果、タブに最終的に生成された議事録が表示されます。

まとめ

本記事では、Difyを活用して会議の議事録を効率的に作成する方法について解説しました。主なポイントは以下の通りです:

  • 音声データの文字起こしからLLMによる要約まで、一貫したワークフローを構築できる
  • Speech To Textツールを使用することで、音声ファイルを簡単にテキストに変換可能
  • LLMを活用することで、文字起こしされたテキストから重要なポイントを抽出し、整理された議事録を自動生成できる

このような自動化されたワークフローを導入することで、議事録作成にかかる時間と労力を大幅に削減することができます。また、一度構築したワークフローは繰り返し利用できるため、長期的な業務効率の向上にも貢献します。

今後は、より高度なモデルの活用や、カスタマイズされたプロンプトの作成など、さらなる改善の余地もあります。ぜひ、ご自身の業務に合わせてワークフローをカスタマイズし、より効率的な議事録作成を実現してください。

Sparkle AIブログ

Discussion