🐈

【一分理解】スクレイピンングしてみよう

2022/03/23に公開約900字1件のコメント

スクレイピングってなに?

スクレイピングとは、ウェブサイトから情報を抽出することです。
サイト上のデータ(商品、価格、天気などのデータ)を取ってくることが多いです。

pythonで書いてみよう

必要なもの(pip)

・requests
・BeautifulSoup
・調べたいサイトのURL

流れ

requestsで取得

res = requests.get("URL")

BeautifulSoupでサイトデータを抽出

soup = BeautifulSoup(res.text, "html.parser")

欲しい部分を決定
ex)クラス名:product_lists aaa の ul の中の liを取得
※商品一覧などの構造はだいたいこんな感じ

found_part = soup.find_all("ul", class_='product_lists aaa')
for ul_tag in found_part:
        for li in ul_tag.find_all('li'):
            print(li.find('span').text)
サンプルコード
# coding: utf-8
import requests
from bs4 import BeautifulSoup


def get_soup(url):
    res = requests.get(url)
    soup = BeautifulSoup(res.text, "html.parser")
    tag_obj = soup.title
    print(tag_obj)


if __name__ == '__main__':
    get_soup("ここにリンクのURL")

ここ注意

Discussion

Webサイトの利用規約または「Robot.txt」を調べ、スクレイピングが禁止するかどうかを確認できます。

ログインするとコメントできます