Closed6

ChatGPTやClaude.aiに読み込ませるために、複数URLのコンテンツを1ファイルに纏めるnotebookサンプル(没)

kun432kun432

これにインスパイアされて、複数のURLのコンテンツを1ファイルにまとめるnotebookを作ってみたが、いまいち使いにくいところがあるので、供養も兼ねてまとめ・・・

https://qiita.com/yamadashy/items/d150576759b84ea36274

notebookはgistで公開している

https://gist.github.com/kun432/c1b56796e2bd3f4709ddcbce6ea12113

WebページのコンテンツはJina Readerを使っているので、APIキーが必要

notebookを実行するとこんな感じでフォームが表示されるのでURLをペーストして実行すると、結果を出力する。結果はクリップボード、もしくはファイルダウンロードできる。

使いにくいところは以下

  • Webサイトの作りにも寄るのだろうと思うが、Jina Readerだとヘッダーとかサイドメニューを拾ってしまうので、無駄にファイルが大きくなる。
    • 試しにLlamaIndexのページを5つほど拾ってみたが、Claude.aiではサイズオーバーで弾かれた
    • FireCrawlだとメインコンテンツだけ取得するオプションがあって、試してみた感じは優秀、無駄なコンテンツを含まないのでこっちのほうが良さそう

Jina Readerはクレジット制でReader以外にも使えて便利なんだけど、FireCrawlは月額なんだよな・・・APIでお手軽に使いたかったのだけど、セルフホスト版使ってdocker-composeあたりで簡単に使えるようにするかな・・・

kun432kun432

ちなみにClaude 3.5 Sonnetに相談しながら作った。

kun432kun432

FireCrawlだとonlyMainContentというオプションを付けると、ヘッダーやフッター、ナビゲーション関連のコンテンツを取得せずに、メインのコンテンツだけ取得してくれる。

という便利なオプションがあるということで、Streamlitで作ったGUIをFireCrawl向けに書き換えてみた。FireCrawlはセルフホストで動かすことを想定している。

https://zenn.dev/link/comments/3d1c650fe9b779

このスクラップは1ヶ月前にクローズされました