Open3
HTML解析とは

メモ📖✍️
HTMLを解析するとは、具体的に以下のような操作を指します。
操作内容 | 具体例 |
---|---|
タグの抽出 | <h1>や<p>などのタグを見つける |
テキストの抽出 | タグ内の文字列を取得する |
属性の取得 | <a href="...">のhref属性など |
条件付き抽出 | 「特定のクラス名を持つ要素だけ」など |
構造の操作 | 要素の追加・削除・変更 |

pythonのライブラリ「Beaurtiful Soup4」でよく使うメソッドまとめ
メソッド | 説明 |
---|---|
find() | 最初の一致する要素を取得 |
find_all() | 一致するすべての要素を取得 |
select() | CSSセレクタで複数取得 |
select_one() | CSSセレクタで1つ取得 |
get_text() / .text | 要素のテキストを取得 |
attrs | 属性を辞書で取得 |

Beautiful Soup
HTMLやXMLファイルを解析し、ツリー構造を操作するためのライブラリです。
pip install beautifulsoup4
でインストールできます。
Webページから取得したHTML文字列を解析し、タグや属性を検索したり、データを抽出したりするのに使用します。
Selenium
ブラウザを操作するためのライブラリです。
pip install selenium
でインストールできます。
Webページを読み込み、フォームに値を入力したり、ボタンをクリックしたりできます。
動的なWebページからデータを取得する際に特に有効です。
Requests
HTTPリクエストを送信するためのライブラリです。
pip install requests
でインストールできます。
WebページからHTMLデータを取得する際に使用します。
使い分け
静的なWebページからデータを取得する場合は、RequestsとBeautiful Soupの組み合わせが便利です。
JavaScriptが実行される動的なWebページからデータを取得する場合は、Seleniumを使用します。