🗒️

1日を全録する②　GEMINI を利用して1日のまとめ作成

2025/05/13に公開

 動機言った、言わない、本当に無駄な時間ですよね。

言ったか言わないか自分で覚えられない場合は全部録音してしまえばいいのでは・・？
そう、ソニーならね。

https://www.sony.jp/ic-recorder/products/ICD-TX660/?srsltid=AfmBOop3LJN6J6M3ltngk0zfBBe9JHwRxt1WmoPFJUnX8QTNIGa9QbdB
ということで言った言わないを撲滅するため、録音し、文字起こししてそれをGeminiに読んでいい感じにまとめてもらおうというのが今回の趣旨です。

どんなLLMでも良いのですが、そのへんの抽象化のためにLangchainなどを使うのも冗長かな、と思うので今回はGEMINIを直接扱っていきます。
この記事ではgeminiによるトピックのピックアップを行っていきます。
前回はkotoba-whisperによる文字起こしを行っています。
https://zenn.dev/yoheikusano/articles/b69245e08da3fc

 GEMINI API KEYの取得あまりに簡単すぎるAPIKEYの取得方法
下記URLにアクセスして画像の「Google AI StudioでAPI KEYを取得する」を押していくだけです。

まじで簡単。
https://ai.google.dev/gemini-api/docs/api-key?hl=ja
API KEYは.envファイルに入れておきましょう。
GEMINI_API_KEY="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

 Python SDKのインストールuv add google-genai

 コード文字起こししたファイルの場所を渡してその上位ディレクトリにGEMINIでピックアップした情報のmarkdownを作ってもらうようにお願いしています。
私の場合はObsidianを使っているため、タグをつけたりしています。
コードはcursorを使用してコーディングしていますので、まとめてgithubに上げました。

必要な分だけご参照ください。
https://github.com/niohx/lifelog-transcriber

 PCスペックPCスペックはこんな感じ。

13時間の文字起こしでも1時間はかかりませんでした。

 最後に文字起こし自体の精度はいまいちですが、いい感じにGeminiが補完してくれていて、かなりいい感じにサマリーを作ってもらえました。言った言わないが撲滅されたような気がしました。

動機

GEMINI API KEYの取得

Python SDKのインストール

コード

PCスペック

最後に

Discussion