<h1 id="google-drive%E3%81%A8llm%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90%E3%81%99%E3%82%8B%E4%BB%95%E7%B5%84%E3%81%BF%E3%82%92%E4%BD%9C%E3%82%8B" data-line="0" class="code-line">
<a class="header-anchor-link" href="#google-drive%E3%81%A8llm%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90%E3%81%99%E3%82%8B%E4%BB%95%E7%B5%84%E3%81%BF%E3%82%92%E4%BD%9C%E3%82%8B" aria-hidden="true"></a> Google DriveとLLMで議事録を自動生成する仕組みを作る</h1>
こんにちは。 <a href="https://s-mat.co.jp/" target="_blank" rel="nofollow noopener noreferrer">株式会社エスマット</a>でSREをしている<a href="https://x.com/biosugar0" target="_blank" rel="nofollow noopener noreferrer">biosugar0</a>です。 
今回は私が社内向けに構築した Google Driveにアップロードされた音声・動画ファイルからLLMを使って自動的に議事録を生成するシステムを紹介します。Python製です。
数ある会議や電話、インタビュー音源を文字起こしし、要点をまとめる作業は非常に手間がかかりがちです。そこで、Google Cloud Run・Google Workflow・Whisper・gpt-4o などを活用して、書き起こしから最終的な議事録ドキュメントを作成するまでを自動化しました。Googleカレンダー情報の連携やSRT形式による動画連携、フォルダ名による処理分岐など、拡張性を持った仕組みを整えているので、そのポイントを順番に紹介していきます。
<h2 id="%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E5%85%A8%E4%BD%93%E6%A6%82%E8%A6%81" data-line="7" class="code-line">
<a class="header-anchor-link" href="#%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E5%85%A8%E4%BD%93%E6%A6%82%E8%A6%81" aria-hidden="true"></a> システム全体概要</h2>
<h3 id="%E5%85%A8%E4%BD%93%E6%A7%8B%E6%88%90%E5%9B%B3" data-line="9" class="code-line">
<a class="header-anchor-link" href="#%E5%85%A8%E4%BD%93%E6%A7%8B%E6%88%90%E5%9B%B3" aria-hidden="true"></a> 全体構成図</h3>
<iframe id="zenn-embedded__82fdbf90c0b2" src="https://embed.zenn.studio/mermaid#zenn-embedded__82fdbf90c0b2" data-content="sequenceDiagram%0A%20%20%20%20participant%20User%20as%20User%0A%20%20%20%20participant%20GDrive%20as%20Drive%0A%20%20%20%20participant%20CRJob%20as%20Cloud%20Run%20Job%3Cbr%3E(%E5%A4%89%E6%9B%B4%E6%A4%9C%E7%9F%A5)%0A%20%20%20%20participant%20FS%20as%20Firestore%0A%20%20%20%20participant%20PS%20as%20Pub%2FSub%0A%20%20%20%20participant%20WF%20as%20Workflow%0A%20%20%20%20participant%20GenJob%20as%20Cloud%20Run%20Job%3Cbr%3E(%E8%AD%B0%E4%BA%8B%E9%8C%B2%E7%94%9F%E6%88%90)%0A%20%20%20%20participant%20LLM%20as%20Whisper%2BGPT%0A%20%20%20%20participant%20Docs%20as%20Docs%20API%0A%0A%20%20%20%20User-%3E%3EGDrive%3A%20%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%92%3Cbr%3E%E3%82%A2%E3%83%83%E3%83%97%E3%83%AD%E3%83%BC%E3%83%89%0A%20%20%20%20note%20over%20GDrive%2CCRJob%3A%20(5%E5%88%86%E3%81%94%E3%81%A8%E3%81%AB%3Cbr%3E%E5%A4%89%E6%9B%B4%E3%82%92%E6%A4%9C%E7%9F%A5)%0A%20%20%20%20CRJob-%3E%3EFS%3A%20%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E6%83%85%E5%A0%B1%E3%82%92%3Cbr%3E%E4%BF%9D%E5%AD%98%0A%20%20%20%20FS-%3E%3EPS%3A%20Pub%2FSub%E3%81%AB%3Cbr%3E%E3%83%A1%E3%83%83%E3%82%BB%E3%83%BC%E3%82%B8%E9%80%81%E4%BF%A1%0A%20%20%20%20PS-%3E%3EWF%3A%20Workflow%3Cbr%3E%E3%83%95%E3%82%A1%E3%82%A4%E3%83%ABID%E3%82%92%E5%8F%97%E4%BF%A1%0A%20%20%20%20WF-%3E%3EGenJob%3A%20%E8%AD%B0%E4%BA%8B%E9%8C%B2%E7%94%9F%E6%88%90%E3%82%B8%E3%83%A7%E3%83%96%E3%82%92%3Cbr%3E%E8%B5%B7%E5%8B%95%0A%20%20%20%20alt%20%E5%8B%95%E7%94%BB%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%AE%E5%A0%B4%E5%90%88%0A%20%20%20%20%20%20%20%20GenJob-%3E%3EGenJob%3A%20ffmpeg%E3%81%A7%E9%9F%B3%E5%A3%B0%E6%8A%BD%E5%87%BA%0A%20%20%20%20end%0A%20%20%20%20GenJob-%3E%3ELLM%3A%20Whisper%E3%81%A7%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%3Cbr%3E%2B%20gpt-4o%E3%81%A7%E8%A6%81%E7%B4%84%0A%20%20%20%20LLM-%3E%3EGenJob%3A%20%E8%A6%81%E7%B4%84%E6%B8%88%E3%81%BF%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%0A%20%20%20%20GenJob-%3E%3EDocs%3A%20Google%20Docs%E3%81%AB%3Cbr%3E%E5%87%BA%E5%8A%9B%0A%20%20%20%20Docs--%3E%3EUser%3A%20slack%E3%81%AB%E8%AD%B0%E4%BA%8B%E9%8C%B2%E5%AE%8C%E6%88%90%E9%80%9A%E7%9F%A5" frameborder="0" scrolling="no" loading="lazy"></iframe><ol data-line="38" class="code-line">
<li data-line="38" class="code-line">
共有ドライブにファイルアップロード
<ul data-line="39" class="code-line">
<li data-line="39" class="code-line">会議音声やインタビュー動画などを特定フォルダに置く。</li>
</ul>
</li>
<li data-line="40" class="code-line">
5分ごとのCloud Run JobがDriveの変更を検知
<ul data-line="41" class="code-line">
<li data-line="41" class="code-line">Google Drive APIの変更履歴（Change API）をもとに差分をFirestoreに記録し、Pub/Subにメッセージを投げる。</li>
</ul>
</li>
<li data-line="42" class="code-line">
Google WorkflowでファイルIDを受け取り、議事録生成ジョブ（Cloud Run Job）を実行
<ul data-line="43" class="code-line">
<li data-line="43" class="code-line">Firestoreのファイル情報やパス情報を参照しながら音声変換や書き起こしの準備をする。</li>
</ul>
</li>
<li data-line="44" class="code-line">
Whisperで文字起こし＆gpt-4oで議事録生成
<ul data-line="45" class="code-line">
<li data-line="45" class="code-line">動画ファイルの場合は <code>moviepy</code> や <code>ffmpeg</code> を使って音声トラックを抽出 → Whisper → gpt-4o</li>
</ul>
</li>
<li data-line="46" class="code-line">
Google Docs APIで自動ドキュメント出力
<ul data-line="47" class="code-line">
<li data-line="47" class="code-line">生成した文章をDocs API経由で同じフォルダに新規作成。Slack通知でユーザーに共有。</li>
</ul>
</li>
<li data-line="48" class="code-line">
議事録完成通知
<ul data-line="49" class="code-line">
<li data-line="49" class="code-line">SlackのBlock Kitなどを用いて議事録の完成を視認性高く通知。</li>
</ul>
</li>
</ol>
<h3 id="%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3%E3%81%A7%E9%87%8D%E8%A6%96%E3%81%97%E3%81%9F%E7%82%B9" data-line="51" class="code-line">
<a class="header-anchor-link" href="#%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3%E3%81%A7%E9%87%8D%E8%A6%96%E3%81%97%E3%81%9F%E7%82%B9" aria-hidden="true"></a> アーキテクチャで重視した点</h3>
<ul data-line="53" class="code-line">
<li data-line="53" class="code-line">
変更検知をCloud Run Jobが担当 
5分おきに起動し、Google Driveの変更分だけをFirestoreへ登録。Pub/Subにメッセージ送信することで、多数ファイルに対してもスケーラブルに処理できる。</li>
<li data-line="55" class="code-line">
本処理はGoogle Workflow + Cloud Run Job 
受け取ったファイルIDをGoogle Workflowで受信し、本番ジョブのコンテナを起動して非同期で書き起こし・議事録生成を実行。 
“キック役（変更検知）” と “重い処理役（議事録生成）” を分けることで、保守もしやすい。</li>
<li data-line="58" class="code-line">
柔軟な拡張 
フォルダ名や拡張子による分岐で拡張機能を追加しやすい構成。</li>
</ul>
<h2 id="whisper%E3%81%A7%E3%81%AEsrt%E7%94%9F%E6%88%90%E3%81%A8%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88" data-line="61" class="code-line">
<a class="header-anchor-link" href="#whisper%E3%81%A7%E3%81%AEsrt%E7%94%9F%E6%88%90%E3%81%A8%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88" aria-hidden="true"></a> WhisperでのSRT生成と議事録フォーマット</h2>
このプロジェクトではOpenAIの <code>Whisper</code> API を使い、動画ファイルの場合は <code>moviepy</code> で音声のみ抽出→Whisperにかけてテキスト化しています。
<div class="code-block-container"><pre class="language-python"><code class="language-python code-line" data-line="65">if mime_type == "video/mp4":
 # mp4 -&gt; mp3に変換
 with VideoFileClip(temp_file.name) as video:
 video.audio.write_audiofile(temp_mp3.name)
 srt_content = transcribe_audio(client, temp_mp3.name)
</code></pre></div>さらにWhisperが出力したテキストを SRT形式 に変換します。SRTによって後続の要約処理や、時刻別のリンク生成（後述）がやりやすくなります。 
Whisper API 単体でもSRT出力は可能ですが、chunkして分割処理するときにはwhisperには <code>verbose_json</code> 出力させ、自前でそれをマージしてSRT形式に変換してしまったほうが楽です。 
whisper APIを使うとだいたいcontext長の制限で引っかかるので、chunkして分割する必要があります。
<div class="code-block-container"><pre class="language-python"><code class="language-python code-line" data-line="77">transcript = client.audio.transcriptions.create(
 file=audio_file,
 model="whisper-1",
 temperature=0,
 response_format="verbose_json",
 language="ja",
 prompt=transcript_prompt,
)
</code></pre></div><h3 id="srt%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%A0%E3%82%B9%E3%82%BF%E3%83%B3%E3%83%97%E3%81%A7%E5%8B%95%E7%94%BB%E9%80%A3%E6%90%BA" data-line="89" class="code-line">
<a class="header-anchor-link" href="#srt%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%A0%E3%82%B9%E3%82%BF%E3%83%B3%E3%83%97%E3%81%A7%E5%8B%95%E7%94%BB%E9%80%A3%E6%90%BA" aria-hidden="true"></a> SRTのタイムスタンプで動画連携</h3>
議事録本文には該当トピックの冒頭秒数からジャンプできるリンクを付与しています。
例えば <code>start_time_str</code> が <code>1h10m11s</code> ならGoogle Driveの動画URLに <code>#t=1h10m11s</code> を付けることで、議事録の任意の場所から動画の該当箇所に飛べる 仕組みです。
<div class="code-block-container"><pre class="language-python"><code class="language-python code-line" data-line="95">link_url = f"{base_url}#t={start_time_str}"
</code></pre></div><h2 id="gpt-4o%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90" data-line="100" class="code-line">
<a class="header-anchor-link" href="#gpt-4o%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90" aria-hidden="true"></a> gpt-4oで議事録テンプレートを自動生成</h2>
Whisperで作成したSRT結果に対して、LLMを使って議事録を生成しています。
<ol data-line="104" class="code-line">
<li data-line="104" class="code-line">
話題分割:<code>gpt-4o</code> によってSRTを解析し、「会話が切り替わったセクション」を5つ以上に分割させるようプロンプト指定</li>
<li data-line="105" class="code-line">
各トピックごとに簡潔要約: <code>gpt-4o</code> によって箇条書きなどの形式で出力させる</li>
<li data-line="106" class="code-line">
最終的な議事録レイアウト（参加者一覧、会議の概要、Next Step、質疑応答、インサイトなど） をHTMLとして整形</li>
</ol>
生成したHTMLをparseし、Docs API用に変換してGoogleDocsに流し込むことで、最終的な議事録を作成しています。 
また、作成完了と同時にslackでその議事録の概略と共に作成完了通知を行っています。
<h2 id="google%E3%82%AB%E3%83%AC%E3%83%B3%E3%83%80%E3%83%BC%E6%83%85%E5%A0%B1%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%81%AB%E6%96%87%E8%84%88%E3%82%92%E8%BF%BD%E5%8A%A0" data-line="111" class="code-line">
<a class="header-anchor-link" href="#google%E3%82%AB%E3%83%AC%E3%83%B3%E3%83%80%E3%83%BC%E6%83%85%E5%A0%B1%E3%81%A7%E8%AD%B0%E4%BA%8B%E9%8C%B2%E3%81%AB%E6%96%87%E8%84%88%E3%82%92%E8%BF%BD%E5%8A%A0" aria-hidden="true"></a> Googleカレンダー情報で議事録に文脈を追加</h2>
議事録を生成する前に、GoogleカレンダーAPIを使って会議情報を取得し、議事録に追加情報を付与しています。 
マッチするイベントが見つかったら、会議タイトル／参加者メール／会議説明 などの情報を議事録作成時に追加できます。これにより「書き起こしには出てこないが、カレンダー上で事前に登録してあった情報」を補完して議事録を作成可能です。
検索の際には、処理対象の録画ファイルを格納するフォルダ名をslackのユーザー名にすることで、slackのユーザー名でメールアドレスを取得し、 <a href="https://developers.google.com/admin-sdk/directory/v1/guides/delegation?hl=ja" target="_blank" rel="nofollow noopener noreferrer">ドメイン全体の委任</a> を利用することでカレンダーAPIでそのユーザーの予定を検索できるようにしています。
<h2 id="%E3%83%95%E3%82%A9%E3%83%AB%E3%83%80%E5%90%8D%E3%81%AB%E3%82%88%E3%82%8B%E5%87%A6%E7%90%86%E5%88%86%E5%B2%90" data-line="119" class="code-line">
<a class="header-anchor-link" href="#%E3%83%95%E3%82%A9%E3%83%AB%E3%83%80%E5%90%8D%E3%81%AB%E3%82%88%E3%82%8B%E5%87%A6%E7%90%86%E5%88%86%E5%B2%90" aria-hidden="true"></a> フォルダ名による処理分岐</h2>
音声・動画に限らず、同じ仕組みでPDFを扱う例もあります。特定のフォルダにPDFファイルがアップロードされたらOCRをしてテキスト化→ gpt-4oに投げてIDを抽出し、Google Drive上のファイル名をIDに変更、などのフローを取り入れています。
<div class="code-block-container"><pre class="language-python"><code class="language-python code-line" data-line="123">if "feature-rename" in full_path:
 if mime_type == "application/pdf":
 renameSurveyScanFile(drive_service, file_id)
</code></pre></div>これにより、「フォルダに入れるだけでOCR→ID抽出→自動リネーム」までを実行できます。 
このフォルダ名による処理分岐は、新しい機能を追加する際にも柔軟に対応できるため、拡張性を高めることができます。
<h2 id="%E3%81%BE%E3%81%A8%E3%82%81" data-line="132" class="code-line">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> まとめ</h2>
<ul data-line="134" class="code-line">
<li data-line="134" class="code-line">
Google Drive へのファイルアップロードをトリガーに、WhisperとLLMを組み合わせた議事録自動生成</li>
<li data-line="135" class="code-line">
SRT形式 で書き起こしを管理し、タイムスタンプを使って動画とのリンクを簡単に設定</li>
<li data-line="136" class="code-line">
GoogleカレンダーAPI で会議情報を補完し、より的確な議事録を自動生成</li>
<li data-line="137" class="code-line">
フォルダ構成／拡張子 を利用して機能を切り替え、インタビュー議事録やPDFファイルrenameなど多用途に対応</li>
</ul>
Google Workspaceを利用している組織であれば、こうしたGoogle Driveをトリガーにした自動化は非常に有用で様々な業務に応用できるのではないでしょうか。 
こうした形でLLMを活用しているよという事例でした。

Google DriveとLLMで議事録を自動生成する仕組みを作る

SRTのタイムスタンプで動画連携

WhisperでのSRT生成と議事録フォーマット

gpt-4oで議事録テンプレートを自動生成

Googleカレンダー情報で議事録に文脈を追加

Discussion