Closed6
ChatGPTやClaude.aiに読み込ませるために、複数URLのコンテンツを1ファイルに纏めるnotebookサンプル
これにインスパイアされて、複数のURLのコンテンツを1ファイルにまとめるnotebookを作ってみたが、いまいち使いにくいところがあるので、供養も兼ねてまとめ・・・
notebookはgistで公開している
WebページのコンテンツはJina Readerを使っているので、APIキーが必要
notebookを実行するとこんな感じでフォームが表示されるのでURLをペーストして実行すると、結果を出力する。結果はクリップボード、もしくはファイルダウンロードできる。
使いにくいところは以下
- Webサイトの作りにも寄るのだろうと思うが、Jina Readerだとヘッダーとかサイドメニューを拾ってしまうので、無駄にファイルが大きくなる。
- 試しにLlamaIndexのページを5つほど拾ってみたが、Claude.aiではサイズオーバーで弾かれた
- FireCrawlだとメインコンテンツだけ取得するオプションがあって、試してみた感じは優秀、無駄なコンテンツを含まないのでこっちのほうが良さそう
Jina Readerはクレジット制でReader以外にも使えて便利なんだけど、FireCrawlは月額なんだよな・・・APIでお手軽に使いたかったのだけど、セルフホスト版使ってdocker-composeあたりで簡単に使えるようにするかな・・・
ちなみにClaude 3.5 Sonnetに相談しながら作った。
まあPerplexityでやればいいじゃんという気もするし、以下のようなものを使うという手もある
Colaboratoryでテキストエリアを作る
もう一つ供養でStreamlit版も・・・
FireCrawlだとonlyMainContentというオプションを付けると、ヘッダーやフッター、ナビゲーション関連のコンテンツを取得せずに、メインのコンテンツだけ取得してくれる。
という便利なオプションがあるということで、Streamlitで作ったGUIをFireCrawl向けに書き換えてみた。FireCrawlはセルフホストで動かすことを想定している。
このスクラップは5ヶ月前にクローズされました