Open3ヶ月前にコメント追加3

HTML解析とは

メモ📖✍️
HTMLを解析するとは、具体的に以下のような操作を指します。

操作内容	具体例
タグの抽出	<h1>や<p>などのタグを見つける
テキストの抽出	タグ内の文字列を取得する
属性の取得	<a href="...">のhref属性など
条件付き抽出	「特定のクラス名を持つ要素だけ」など
構造の操作	要素の追加・削除・変更

ひで

pythonのライブラリ「Beaurtiful Soup4」でよく使うメソッドまとめ

メソッド	説明
find()	最初の一致する要素を取得
find_all()	一致するすべての要素を取得
select()	CSSセレクタで複数取得
select_one()	CSSセレクタで1つ取得
get_text() / .text	要素のテキストを取得
attrs	属性を辞書で取得

ひで

Beautiful Soup

HTMLやXMLファイルを解析し、ツリー構造を操作するためのライブラリです。

pip install beautifulsoup4でインストールできます。

Webページから取得したHTML文字列を解析し、タグや属性を検索したり、データを抽出したりするのに使用します。
Selenium

ブラウザを操作するためのライブラリです。

pip install seleniumでインストールできます。

Webページを読み込み、フォームに値を入力したり、ボタンをクリックしたりできます。

動的なWebページからデータを取得する際に特に有効です。
Requests

HTTPリクエストを送信するためのライブラリです。

pip install requestsでインストールできます。

WebページからHTMLデータを取得する際に使用します。
使い分け

静的なWebページからデータを取得する場合は、RequestsとBeautiful Soupの組み合わせが便利です。

JavaScriptが実行される動的なWebページからデータを取得する場合は、Seleniumを使用します。