😽

海外カンファレンスのセッションを iPhone と Slack と Claude3 で理解する

2024/04/16に公開

書くこと

英語の聞き取りが苦手な人が、海外のカンファレンスのセッションを理解するための方法

書かないこと

  • LLM の性能比較
    • 今回は普段使用している Claude3 を使用して、概要生成・詳細化を行いました
    • 精度に関しては特に不満はありませんでした
  • 細かいプロンプトテクニック
    • そもそもプロンプトテクニックは持ち合わせておりません
    • こちらの記事をいつも参考にさせていただいています
      参考: https://note.com/k_masaki/n/n3089b04a688f

背景

スピーカーの話を理解しつつ、説明資料の写真を取りつつ、メモを取りつつ、、、は日本語のスピーカーの場合でも難しく、慣れていない海外カンファレンス、ましてや英語の聞き取りに自信がない人(つまり私です)にとっては、絶望的な状況です。
世の中にはリアルタイム翻訳してくれるアプリも多数ありますが、会話と違いこちらの状況を待ってくれるわけでもないので、継続的な少しのタイムラグと翻訳精度と戦いながら、スピーカーの話を理解するのは、やはり難しいです。

そこで、今回参加した Google Cloud Next 24 では、現地でのスピーカーやデモ、ライブコーディング等のライブ感に全集中しつつ(それでも半分くらいは聞き取れない...)、その後、下記の方法でセッションの中身を深堀りすることで理解を深めることができました。

方法

  • iPhone で録音
  • Slack にアップロード
  • Slack 自動生成したテキストを整形
    • Slack から出力されるテキストでは、ご丁寧に再生時間も出力されるため、以下のようなコマンドで整形します
      cat original.txt| grep -v -e '^\s*#' -e '^\s*$' -e '^[0-9]' > format.tx
  • Claude3 上で概要を生成
    • まずは、全体の概要を生成してもらいます
    • 詳細に理解したい箇所はより詳細な翻訳を依頼します
    • 必要であれば原文を表示してもらいます
    • 現場で気になったポイント毎にこの詳細化の流れをループします

費用

  • Slack: 無料
    • 無料プランでも音声からテキストの自動生成は出来ます
  • Claude3: 有料、20 ドル/月
    • OpenAI の GPT-3.5 turbo 等の無料の LLM でも代替可能

やってみた結果

  • パネルディスカッションのような、ほぼ口頭だけで進んでいくセッションでは、スピーカーの話を理解するのが難しいと感じることが多いのですが、後からにはなりますがスピーカーの話を理解することができました
  • 最低限、聞きたいワードや気になっているポイントをセッションの中で拾うことで、その後の振り返りを効率よく行うことが出来ました

この記事をライフハック的に書いていて自分の情けなさがぶり返してきました。早く問題なく英語が聞き取れるようになります...。

GitHubで編集を提案

Discussion