🗒️

1日を全録する② GEMINI を利用して1日のまとめ作成

に公開

動機

言った、言わない、本当に無駄な時間ですよね。
言ったか言わないか自分で覚えられない場合は全部録音してしまえばいいのでは・・?

そう、ソニーならね。
https://www.sony.jp/ic-recorder/products/ICD-TX660/?srsltid=AfmBOop3LJN6J6M3ltngk0zfBBe9JHwRxt1WmoPFJUnX8QTNIGa9QbdB

ということで言った言わないを撲滅するため、録音し、文字起こししてそれをGeminiに読んでいい感じにまとめてもらおうというのが今回の趣旨です。
どんなLLMでも良いのですが、そのへんの抽象化のためにLangchainなどを使うのも冗長かな、と思うので今回はGEMINIを直接扱っていきます。

この記事ではgeminiによるトピックのピックアップを行っていきます。

前回はkotoba-whisperによる文字起こしを行っています。

https://zenn.dev/yoheikusano/articles/b69245e08da3fc

GEMINI API KEYの取得

あまりに簡単すぎるAPIKEYの取得方法

下記URLにアクセスして画像の「Google AI StudioでAPI KEYを取得する」を押していくだけです。
まじで簡単。

https://ai.google.dev/gemini-api/docs/api-key?hl=ja

API KEYは.envファイルに入れておきましょう。

GEMINI_API_KEY="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

Python SDKのインストール

uv add google-genai

コード

文字起こししたファイルの場所を渡してその上位ディレクトリにGEMINIでピックアップした情報のmarkdownを作ってもらうようにお願いしています。

私の場合はObsidianを使っているため、タグをつけたりしています。

コードはcursorを使用してコーディングしていますので、まとめてgithubに上げました。
必要な分だけご参照ください。

https://github.com/niohx/lifelog-transcriber

PCスペック

PCスペックはこんな感じ。
13時間の文字起こしでも1時間はかかりませんでした。

最後に

文字起こし自体の精度はいまいちですが、いい感じにGeminiが補完してくれていて、かなりいい感じにサマリーを作ってもらえました。言った言わないが撲滅されたような気がしました。

Discussion