🗒️
1日を全録する② GEMINI を利用して1日のまとめ作成
動機
言った、言わない、本当に無駄な時間ですよね。
言ったか言わないか自分で覚えられない場合は全部録音してしまえばいいのでは・・?
そう、ソニーならね。
ということで言った言わないを撲滅するため、録音し、文字起こししてそれをGeminiに読んでいい感じにまとめてもらおうというのが今回の趣旨です。
どんなLLMでも良いのですが、そのへんの抽象化のためにLangchainなどを使うのも冗長かな、と思うので今回はGEMINIを直接扱っていきます。
この記事ではgeminiによるトピックのピックアップを行っていきます。
前回はkotoba-whisperによる文字起こしを行っています。
GEMINI API KEYの取得
あまりに簡単すぎるAPIKEYの取得方法
下記URLにアクセスして画像の「Google AI StudioでAPI KEYを取得する」を押していくだけです。
まじで簡単。
API KEYは.env
ファイルに入れておきましょう。
GEMINI_API_KEY="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
Python SDKのインストール
uv add google-genai
コード
文字起こししたファイルの場所を渡してその上位ディレクトリにGEMINIでピックアップした情報のmarkdownを作ってもらうようにお願いしています。
私の場合はObsidianを使っているため、タグをつけたりしています。
コードはcursorを使用してコーディングしていますので、まとめてgithubに上げました。
必要な分だけご参照ください。
PCスペック
PCスペックはこんな感じ。
13時間の文字起こしでも1時間はかかりませんでした。
最後に
文字起こし自体の精度はいまいちですが、いい感じにGeminiが補完してくれていて、かなりいい感じにサマリーを作ってもらえました。言った言わないが撲滅されたような気がしました。
Discussion