Closed8
Pythonでスクレイピングする際のライブラリ選定など・調査まとめ
ピン留めされたアイテム
PlayWright Browser Toolkit は、GPTも絡ませたスクレイピングに使える!
- LangChainの中に、PlayWright の機能( PlayWright Browser Toolkit )もある。
Pythonでスクレイピングする際のライブラリ選定
User-Agentの変更
Playwright for Python のDoc
PlaywrightとSeleniumの比較ガイド
JavaScriptを使用している動的なウェブサイトをスクレイピングしたい場合、一般的に推奨されるのは、ブラウザ自動化ツールを使用することです。
この種のツールでは、コードを使ってブラウザを操作し、そのブラウザに表示される情報をスクレイピングできます。
PlaywrightとSeleniumでは、どちらがおすすめか?
- 調査したところ、Playwrightの方が、上位互換のような印象を受けた & 使いやすくおすすめ🌟
PlaywrightとSeleniumの比較・Summary
- Playwrightは、セットアップの手間がSeleniumよりも少ないです。
- PlaywrightとSeleniumは多くの言語でサポートされています。
- Playwrightは、JavaScript/TypeScript、Java、Python、C#を公式にサポートしています。
- SeleniumはJava、C#、Python、JavaScript、Ruby、Kotlinを公式にサポートしています。
- ほとんどのベンチマークによると、PlaywrightはSeleniumより明らかに高速です。
- Playwrightの開発者は、スクリプトの実行を高速化し、並列化を容易にする最適化を多数実装しました。
Scrapy Doc
requests-htmlを利用したwebスクレイピング
requests-html の概要(Summary)
Requests-HTML は、Web スクレイピングを簡単に操作にするモジュールである。
HTML のパースなどページを取り出して目的の要素を処理する。
Requests-HTML の作者である Kenneth Reitz 氏 は、HTTP クライアントインターフェースとして広く使われている Requests モジュールの作者でもある。
Requests-HTML は、ページに含まれているすべてのリンクやコンテンツ全体の他、HTML 要素の属性を知ることができる。
Requests-HTMLの README.MD によると、次のように書かれている。
このライブラリは、HTML の解析 (Web のスクレイピングなど) をできるだけシンプルかつ直感的に行うことを目的としています。
このライブラリを使用すると、次のものが自動的に取得されます。
- JavaScript サポート
- CSS セレクター
- XPath セレクター
- Mock・ユーザーエージェント
- リダイレクトの自動フォロー
- 接続プール
- Cookie の永続化
- 非同期サポート
引用元: Requests-HTML
環境構築
- requests-html を install する
pip install requests-html
[ 参考・引用 ]
WebスクレイピングのSample
このスクラップは2023/12/29にクローズされました