🙆

NoteBookLMを便利に使うためにPEGASUSをPoetry環境で使ってみた

2024/06/10に公開

PEGASUSとは?

ウェブスクレイピングと Markdown 変換を自動化する Python パッケージ「PEGASUS」

https://hamaruki.com/pegasus-v0-1-0-release-explanation-automatically-convert-your-website-to-markdown/
https://github.com/Sunwood-ai-labs/PEGASUS

やりたい事

話題のNoteBookLM使ってみたら上手くウェブサイトを読み込めないパターンもあって困っていたんだけど
ウェブサイトの内容をスクレイピングしてマークダウン形式にしてくれるライブラリを開発してくださった方がいたので利用してみることに。

MD形式にできれば、AIフレンドリーなデータになるのでgeminiでもEraserでも扱いやすくなるに違いない。

https://x.com/hAru_mAki_ch/status/1799481168242557169

早速Poetry環境で使ってみる

Poetry環境はいつものやり方でやる
https://zenn.dev/ytksato/articles/67fb9add146f5a

インストール

poetry add pegasus-surf

githubに以下のサンプルコマンドがあったがこれだと動かなかったので修正

# 単一のURLからスクレイピングを開始
pegasus --base-url https://example.com/start-page output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension txt

修正後のコマンド

# 単一のURLからスクレイピングを開始
pegasus --base-url 'https://example.com/start-page' output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension .txt

Difyの仕様をダウンロード

pegasus --base-url https://docs.dify.ai/ output_directory/docs.dify.ai --exclude-selectors header footer nav --include-domain docs.dify.ai --exclude-keywords login --output-extension .txt --max-depth 2

Discussion