Open3

HTML解析とは

ひでひで

メモ📖✍️
HTMLを解析するとは、具体的に以下のような操作を指します。

操作内容 具体例
タグの抽出 <h1>や<p>などのタグを見つける
テキストの抽出 タグ内の文字列を取得する
属性の取得 <a href="...">のhref属性など
条件付き抽出 「特定のクラス名を持つ要素だけ」など
構造の操作 要素の追加・削除・変更
ひでひで

pythonのライブラリ「Beaurtiful Soup4」でよく使うメソッドまとめ

メソッド 説明
find() 最初の一致する要素を取得
find_all() 一致するすべての要素を取得
select() CSSセレクタで複数取得
select_one() CSSセレクタで1つ取得
get_text() / .text 要素のテキストを取得
attrs 属性を辞書で取得
ひでひで

Beautiful Soup
HTMLやXMLファイルを解析し、ツリー構造を操作するためのライブラリです。
pip install beautifulsoup4でインストールできます。
Webページから取得したHTML文字列を解析し、タグや属性を検索したり、データを抽出したりするのに使用します。

Selenium
ブラウザを操作するためのライブラリです。
pip install seleniumでインストールできます。
Webページを読み込み、フォームに値を入力したり、ボタンをクリックしたりできます。
動的なWebページからデータを取得する際に特に有効です。

Requests
HTTPリクエストを送信するためのライブラリです。
pip install requestsでインストールできます。
WebページからHTMLデータを取得する際に使用します。

使い分け
静的なWebページからデータを取得する場合は、RequestsとBeautiful Soupの組み合わせが便利です。
JavaScriptが実行される動的なWebページからデータを取得する場合は、Seleniumを使用します。