Pythonでスクレイピングする際のライブラリ選定など・調査まとめ

Playwrightは、セットアップの手間がSeleniumよりも少ないです。
PlaywrightとSeleniumは多くの言語でサポートされています。
- Playwrightは、JavaScript/TypeScript、Java、Python、C#を公式にサポートしています。
- SeleniumはJava、C#、Python、JavaScript、Ruby、Kotlinを公式にサポートしています。
ほとんどのベンチマークによると、PlaywrightはSeleniumより明らかに高速です。
- Playwrightの開発者は、スクリプトの実行を高速化し、並列化を容易にする最適化を多数実装しました。

まさぴょん🐱

Scrapy Doc

https://github.com/scrapy/scrapy

まさぴょん🐱

requests-htmlを利用したwebスクレイピング

requests-html の概要(Summary)

Requests-HTML は、Web スクレイピングを簡単に操作にするモジュールである。
HTML のパースなどページを取り出して目的の要素を処理する。
Requests-HTML の作者である Kenneth Reitz 氏は、HTTP クライアントインターフェースとして広く使われている Requests モジュールの作者でもある。
Requests-HTML は、ページに含まれているすべてのリンクやコンテンツ全体の他、HTML 要素の属性を知ることができる。
Requests-HTMLの README.MD によると、次のように書かれている。

このライブラリは、HTML の解析 (Web のスクレイピングなど) をできるだけシンプルかつ直感的に行うことを目的としています。
このライブラリを使用すると、次のものが自動的に取得されます。

JavaScript サポート

CSS セレクター

XPath セレクター

Mock・ユーザーエージェント

リダイレクトの自動フォロー

接続プール

Cookie の永続化

非同期サポート

引用元: Requests-HTML

環境構築

requests-html を install する

pip install requests-html

[ 参考・引用 ]

https://commte.net/7628

https://github.com/psf/requests-html

https://requests-html.kennethreitz.org/

まさぴょん🐱

WebスクレイピングのSample

https://www.ai-lab.app/511/