Notebook LMを活用して音声配信をもっと楽しむ方法
NotebookLM
NotebookLMはGoogleが提供している生成AIを活用したサービスです。なんと(2024年10月現在は)無料で使えます。
NotebookLMは、Googleの生成AI Geminiのロングコンテキスト(多くの量のプロンプトを扱うことができるという意味)の特徴を活かした、文章の要約やQA対応が得意です。文章は、直接プロンプトに入れている(と思われる)ので、単なるRAGとは違う(と思われ)ます。
RAGとロングコンテキストのどっちが良いのかというのは、色々議論があるようです。例えばLost in the Middle: How Language Models Use Long Contextsという論文では「ロングコンテキストの真ん中の情報は失われるよ」みたいなことが書いてありますがRetrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approachという論文では、ロングコンテキストの方が、RAGより性能が良いよと書いてあったり、needle-in-a-haystack(干し草の中から針を探す)というタスクは、GPT-4だと性能が低いという情報があったり、Gemini 1.5の論文では性能高いと書いてあったりと、なかなか評価が難しいです。結局、条件(使用するモデル、データ量、実行するタスク)によってケースバイケースなのではないかなと思います。
Geminiは、他にもマルチモーダル(テキスト以外の動画や音声に対応すること)も強いので、NotebookLMは、マルチモーダルを活かした音声・動画対応もしています。
具体的には、音声を文字起こししてQAしてくれたり、YouTube動画をAI同士の会話で解説してくれたりします。ちなみにYouTubeは新着動画や日本語に対応してなかったりするので、今のところの使い勝手個人的にははいまいちです。
前置き長くなりましたが、NotebookLMはGeminiの特性を活かした、他とはちょっと違ったサービスです。体感ですがGPTsでデータを読み込ませるより(GPTsはおそらく一般的なRAG)、NotebookLMの方が、使い勝手は良いような気がしていますので、一度手持ちのPDFデータなどを入れて、試してみることをオススメします。
試せるデータがないひとは、けんすうさんがAIに読み込ませるために公開している「物語思考」のデータがおすすめです(ダウンロードは、本の購入者のみが可能です)。
音声文字起こしが便利
いよいよ本題なのですが、最新機能の音声対応が凄いです。音声ファイルを文字起こしして、要約したり、QAをしてくれたり、理解度チェッククイズを作ってくれたりします。
音声配信(Podcast/Spotify)が好きな人は、1度聴いた音声配信の内容を確認したい、整理して理解したいと思ったことある人は多いのではないでしょうか?私の場合は歴史を音声配信で学べる「COTEN RADIO」をNotebookLMに入れています。
Podcastの音声ファイルを入手する方法は以下参照ください。
音声ファイルを入手したら、あとはアップロードするだけです。秀吉・家康編をアップロードしたら、以下のように概要が表示されます。また、音声は読み込むと文字起こしもされます。これだけで便利ですね。
理解度を確認するようなクイズも作れます。ちなみに全然答えられませんでした。
音声配信の内容について質問すると答えてくれます。
実際に答えについて、音声ファイルのどこで触れているかも表示されます。
まとめ
NotebookLMで音声配信を楽しむ方法について紹介しました。今まで、音声配信の音声ファイルを「WhisperとChatGPTを使った自作のソフト」で文字起こししていたのですが、NotebookLMのおかげでファイルをドラッグして待つだけでOKになりました。しかもQAやクイズ作成までしてくれます。
NotebookLM、生成AIでかなり便利に使えるサービスではないかと思います。気になる方は使ってみましょう。あとは、Googleさんが有料化は仕方ないにせよ、サービス突然撤退しないかが一番心配ですね。もう手作業の文字起こしには戻れないかも…
関連記事
Discussion