firecrawl
以下を参考にローカルに立ててみる
内部のIPにアクセスする場合
Jina Reader APIとの違い
FireCrawlは、アクセス可能なすべてのサブページをクロールしてくれる。
ドキュメント全体、複数のページが可能ということ。
dify から呼び出すときのオプションは以下
オプションは以下。
Crawl sub-pages: サブページもクロールするかどうかを指定します。
Limit: クロールするページの最大数を指定します(必須項目)。
Max depth: クロールの深さを指定します。
Exclude paths: クロールしないパスを指定します(例: blog/, about/)。
Include only paths: クロールするパスを指定します(例: articles/*)。
Extract only main content: メインコンテンツのみを抽出するかどうかを指定します(ヘッダー、ナビゲーション、フッターなどを除外)。
一旦概要を記事化した
AGPL3.0ライセンスの詳細
6. Firecrawlのライセンス条項
-
GNU Affero General Public License (AGPL) v3.0について
Firecrawlは主にGNU Affero General Public License (AGPL) v3.0の下でライセンスされています。AGPLは、フリーソフトウェア財団(FSF)によって発表されたオープンソースライセンスで、特にネットワークを介して提供されるソフトウェアに適用されます。このライセンスの目的は、クラウドサービスやSaaS(Software as a Service)のような形態で提供されるソフトウェアに対しても、利用者がソースコードを入手できるようにすることです。 -
MITライセンスが適用されるコンポーネント
Firecrawlの一部コンポーネントはMITライセンスの下で提供されています。MITライセンスは非常に寛容なオープンソースライセンスであり、再利用や改変、商用利用が自由に行えます。ただし、著作権表示と許諾表示を含める必要があります。
Firecrawlを利用する際には、これらの異なるライセンス条項を理解し、それぞれのコンポーネントがどのような条件下で使用できるかを確認することが重要です。特にAGPLは強力なコピーレフトを持つため、その影響を十分に理解した上で使用する必要があります。
詳細は以下をご確認ください。