🕷️

2021年オープンソースWebクローラー10選

2021/05/28に公開

元記事：https://www.octoparse.jp/blog/10-best-open-source-web-crawler

Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で収集し、データベースに保管するプログラムのことです。さまざまなウWebクローラーがビッグデータのブームで重要な役割を果たし、人々がデータを簡単にスクレイピングできるようにしています。

さまざまなWebクローラーの中には、オープンソースのWebクローラーフレームワークがたくさんあります。オープンソースのWebクローラーを使用すると、ユーザーはソースコードまたはフレームワークに基づいてプログラミングでき、スクレイピング支援のリソースも提供され、データ抽出が簡単になります。この記事では、おすすめのオープンソースWebクローラーを10選紹介します。

1. Scrapy

言語: Python

Scrapyは、Pythonで最も人気のあるオープンソースのWebクローラーフレームワークでです。Webサイトからデータを効率的に抽出し、必要に応じて処理し、好みの形式（JSON、XML、CSV）で保存するのに役立ちます。ツイスト非同期ネットワークフレームワーク上に構築されており、リクエストを受け入れてより速く処理できます。Scrapyプロジェクトを作って大規模なクローリング・スクレイピングを効率的かつ柔軟に作ることができます。

特徴:

高速、強力
詳細なドキュメントがある
コアに触れることなく新しい機能を追加できる
コミュニティと豊富なリソースがある
クラウド環境で実行できる

2. Heritrix

言語: JAVA

Heritrixは、拡張性が高く、JavaベースのオープンソースWebクローラーの一種で、Webアーカイブ用に設計されます。robot.txt除外ディレクティブとメタロボットタグを非常に尊重し、通常のWebサイトアクティビティを中断させる可能性のない、測定された適応ペースでデータを収集します。オペレータによるクローリングの制御と監視のために、Webブラウザでアクセス可能なWebベースのユーザーインターフェイスを提供します。

特徴:

交換可能なプラグ対応のモジュール
Webベースのインターフェース
robot.txtおよびメタロボットタグを尊重する
優れた拡張性

3. Web-Harvest

言語: JAVA

Web-Harvestは、Javaで作られたオープンソースのWebクローラーです。指定されたページからデータを収集できます。そのために、主にXSLT、XQuery、正規表現などの技術と技術を活用して、HTML / XMLベースのWebサイトのコンテンツを操作またはフィルタリングします。抽出機能を強化するために、Javaライブラリをカスタマイズすることで簡単に補完できます。

特徴:

データ処理および制御フローのための強力なテキストおよびXML操作プロセッサ
変数を保存および使用するための変数コンテキスト
実際のスクリプト言語をサポートし、Webクローラーに簡単に統合できる

4. MechanicalSoup

言語: Python

MechanicalSoupは、Webサイトとのやりとりを自動化するためのPythonライブラリです。MechanicalSoupはPythonの巨人Requests （HTTPセッション用）とBeautifulSoup（ドキュメントナビゲーション用）で構築された同様のAPIを提供します。自動的Cookieを保存して送信し、リダイレクトに従い、リンクをたどり、フォームを送信することができます。データを単にスクレイピングするのではなく、人間の行動をシミュレートしようとする場合、MechanicalSoupは非常に便利です。

特徴:

人間の行動をシミュレートする機能
かなり単純なWebサイトを高速でスクレイピングできる
CSSおよびXPathセレクターをサポート

5. Apify SDK

言語: JavaScript

Apify SDKは、JavaScriptで構築された最高のWebクローラーの1つです。スケーラブルなスクレイピングライブラリにより、ヘッドレスChromeおよびPuppeteerでのデータ抽出およびWeb自動化ジョブの開発が可能になります。RequestQueueやAutoscaledPoolなどの独自の強力なツールを使用すると、複数のURLから開始して、他のページへのリンクを再帰的にたどり、それぞれシステムの最大容量でスクレイピングタスクを実行できます。

特徴:

大規模＆高性能でスクレイピングできる
検出を回避するためのプロキシのプールがある
CheerioやPuppeteerなどのNode.jsプラグインをサポート

6. Apache Nutch

言語: JAVA

Apache NutchはJavaで作られたオープンソースのWebクローラフレームワークです。高度なモジュールアーキテクチャを備えており、開発者はメディアタイプの解析、データ取得、クエリ、クラスタリング用のプラグインを作成できます。プラグ可能なモジュラーであるNutchは、カスタムの実装に拡張可能なインターフェースも提供しています。

特徴:

高度な拡張性
txtルールに従う
活気のあるコミュニティと積極的な発展
プラグ可能な解析、プロトコル、ストレージ、およびインデックス付け

7. Jaunt

言語: JAVA

JauntはJAVAに基づき、Webスクレイピング、Web自動化、およびJSONクエリ用に設計されています。Webスクレイピング機能、DOMへのアクセス、および各HTTP要求/応答の制御を提供する高速で超軽量のヘッドレスブラウザーを提供しますが、JavaScriptはサポートしていません。

特徴:

個々のHTTPリクエスト/レスポンスを処理する
REST APIと簡単に接続できる
HTTP、HTTPS、および基本認証をサポート
DOMおよびJSONでのRegExクエリ対応

8. Node-crawler

言語: JavaScript

Node-crawlerは、Node.jsに基づいた強力で人気のある実稼働Webクローラーです。 Node.jsで完全に記述されており、ノンブロッキングI / Oをサポートしているため、クローラーのパイプライン操作メカニズムに非常に便利です。同時に、DOMの迅速な選択をサポートし（正規表現を書く必要はありません）、クローラー開発の効率を向上させます。

特徴:

レート制御
URLリクエストに優先度がある
構成可能なプールサイズと再試行
サーバー側DOMおよびCheerio（デフォルト）またはJSDOMによる自動jQuery挿入

9. PySpider

言語: Python

PySpiderは、Python書かれた強力なWebクローラフレームワークです。使いやすいWeb UIと、スケジューラ、フェッチャー、プロセッサなどのコンポーネントを備えた分散アーキテクチャを備え、複数のクロールを簡単に追跡できるようになりました。MongoDBやMySQLなど、データストレージ用のさまざまなデータベースをサポートします。

特徴:

ユーザーフレンドリーなインターフェイス
RabbitMQ, Beanstalk, Redis, と Kombu のメッセージキュー
分散アーキテクチャ

10. StormCrawler

言語: JAVA

StormCrawlerは、Apache Stormを使用して分散Webクローラーを構築するためのオープンソースSDKです。このプロジェクトはApacheライセンスv2の下にあり、ほとんどがJavaで書かれた再利用可能なリソースとコンポーネントのコレクションで構成されています。取得および解析するURLがストリームとして提供される場合の使用に最適ですが、特に低遅延が必要な大規模な再帰クロールにも適したソリューションです。 .

特徴:

拡張性が高く、大規模な再帰的クロールに使える
追加のライブラリが簡単に拡張できる
クロールの待ち時間を短縮する優れたスレッド管理

まとめ

オープンソースのWebクローラーは非常に強力で拡張可能ですが、開発者に限定されています。Octoparseのようなスクレイピングツールはたくさんあり、コードを書かなくてもデータを簡単に抽出できます。プログラミングに詳しくない場合は、これらのツールがより適切で、スクレイピングが簡単になります。

1. Scrapy

2. Heritrix

3. Web-Harvest

4. MechanicalSoup

5. Apify SDK

6. Apache Nutch

7. Jaunt

8. Node-crawler

9. PySpider

10. StormCrawler

まとめ

Discussion