Closed8

Pythonでスクレイピングする際のライブラリ選定など・調査まとめ

まさぴょんまさぴょん

PlaywrightとSeleniumの比較ガイド

JavaScriptを使用している動的なウェブサイトをスクレイピングしたい場合、一般的に推奨されるのは、ブラウザ自動化ツールを使用することです。

この種のツールでは、コードを使ってブラウザを操作し、そのブラウザに表示される情報をスクレイピングできます。

PlaywrightとSeleniumでは、どちらがおすすめか?

  • 調査したところ、Playwrightの方が、上位互換のような印象を受けた & 使いやすくおすすめ🌟

PlaywrightとSeleniumの比較・Summary

  • Playwrightは、セットアップの手間がSeleniumよりも少ないです。
  • PlaywrightとSeleniumは多くの言語でサポートされています。
    • Playwrightは、JavaScript/TypeScript、Java、Python、C#を公式にサポートしています。
    • SeleniumはJava、C#、Python、JavaScript、Ruby、Kotlinを公式にサポートしています。
  • ほとんどのベンチマークによると、PlaywrightはSeleniumより明らかに高速です。
    • Playwrightの開発者は、スクリプトの実行を高速化し、並列化を容易にする最適化を多数実装しました。

https://brightdata.jp/blog/ウェブデータ/playwright-vs-selenium

まさぴょんまさぴょん

requests-htmlを利用したwebスクレイピング

requests-html の概要(Summary)

Requests-HTML は、Web スクレイピングを簡単に操作にするモジュールである。
HTML のパースなどページを取り出して目的の要素を処理する。
Requests-HTML の作者である Kenneth Reitz 氏 は、HTTP クライアントインターフェースとして広く使われている Requests モジュールの作者でもある。
Requests-HTML は、ページに含まれているすべてのリンクやコンテンツ全体の他、HTML 要素の属性を知ることができる。
Requests-HTMLの README.MD によると、次のように書かれている。

このライブラリは、HTML の解析 (Web のスクレイピングなど) をできるだけシンプルかつ直感的に行うことを目的としています。
このライブラリを使用すると、次のものが自動的に取得されます。

  • JavaScript サポート
  • CSS セレクター
  • XPath セレクター
  • Mock・ユーザーエージェント
  • リダイレクトの自動フォロー
  • 接続プール
  • Cookie の永続化
  • 非同期サポート

引用元: Requests-HTML

環境構築

  1. requests-html を install する
pip install requests-html

[ 参考・引用 ]

https://blog.ikedaosushi.com/entry/2019/09/15/162445

https://commte.net/7628

https://github.com/psf/requests-html

https://requests-html.kennethreitz.org/

https://it-syoya-engineer.com/requests-html-program/

このスクラップは4ヶ月前にクローズされました