🙆
NoteBookLMを便利に使うためにPEGASUSをPoetry環境で使ってみた
PEGASUSとは?
ウェブスクレイピングと Markdown 変換を自動化する Python パッケージ「PEGASUS」
やりたい事
話題のNoteBookLM使ってみたら上手くウェブサイトを読み込めないパターンもあって困っていたんだけど
ウェブサイトの内容をスクレイピングしてマークダウン形式にしてくれるライブラリを開発してくださった方がいたので利用してみることに。
MD形式にできれば、AIフレンドリーなデータになるのでgeminiでもEraserでも扱いやすくなるに違いない。
早速Poetry環境で使ってみる
Poetry環境はいつものやり方でやる
インストール
poetry add pegasus-surf
githubに以下のサンプルコマンドがあったがこれだと動かなかったので修正
# 単一のURLからスクレイピングを開始
pegasus --base-url https://example.com/start-page output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension txt
修正後のコマンド
# 単一のURLからスクレイピングを開始
pegasus --base-url 'https://example.com/start-page' output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension .txt
Difyの仕様をダウンロード
pegasus --base-url https://docs.dify.ai/ output_directory/docs.dify.ai --exclude-selectors header footer nav --include-domain docs.dify.ai --exclude-keywords login --output-extension .txt --max-depth 2
Discussion