



エンジニアの @infinity0206 です。近年健康診断の数値が悪くなっており、そろそろ運動しないとやばそうです(しません)

本記事は SimpleForm Advent Calendar 2023 の7日目です。今回は社内で法人データのwebクローリングにも活用されている Scrapy についてお話しします!


弊社では SimpleCheck という法人情報を調査することのできるSaaSを開発しています。このサービスの一番根幹とも言える部分が法人データの管理になります。

web 上のデータ収集にはクローラを別途開発して運用しており、クローリング対象となるデータソースは現在50近くに及びます。それだけ数が存在するとただでさえメンテナンスは大変になってくる上に、他のアプリケーションと独立した機能であるが故にどうしてもコードの統一感が失われて読みづらくなっていきます。あとアプリケーションへの直接的な影響が出づらい点からメンテナンスが劣後になりがち問題。ひぃ...

ということもありまして、ある程度管理しやすい方が良いよねということで、社内ではクローラの可読性向上を目的とし Scrapy というフレームワークの導入を推進しています。




一応まとめると、Scrapy のアーキテクチャとしては、Spiders、Items、Pipelines のように大きく3つ分けられます。web ドライバなどのめんどくさい設定も、BeautifulSoup などの HTML パーサーなども個別に入れる必要はなく、Scrapy に全て機能が載っています。()

  • Items:取得したいデータ構造を定義する

    • Spider から取得したデータは、これを経由して Pipeline や Middleware で操作を行うことができる
  • Spiders:web サイトへのクロール方法を定義する

    • HTTP クライアントと HTML パーサーがデフォルトで搭載されている
    • 並列処理に長けており、高速で効率的なクロールが可能
  • Pipelines:抽出したデータに対する加工

    • Items に関する後処理を記述できる
    • データの整形、DB への登録処理、ファイル出力処理、データバリデーション等
  • Middlewares:独自ミドルウェア

    • Spider の実行前後、web サイトへのリクエスト前後などのイベントで差し込みで処理を入れることがでたりとかも可能
  • その他

    • 独自の CLI コマンドを提供しており、デバッグに関する機能なども豊富です。
    • 詳しくはこちらを参照ください。


クローリングはアクセス先の web サイトに負荷を与えてしまう可能性があります。
例えば Amazon だとこのように利用規約が公開されており、データをどこまで利用して良いのか第三者へ公開しても良いのかなど細かく書かれています(「利用許可およびサイトへのアクセス」に記載があります)。クローリングを実施する場合は、必ず対象サイトの利用規約を遵守の上、負荷をかけないよう実施をお願いします。


Scrapy 使っていく


  • レシピサイト上の人気キーワードごとに検索し一覧ページを取得する
  • 一覧ページからレシピURLを取得する
  • レシピ URL に移動し、レシピ情報を取得する
  • 結果をファイルに出力する

なおここでは架空のドメインや URL で記述しております。ご了承ください。

Scrapy スパイダーの作成

まずは Scrapy をインストールします。

pip install scrapy

Scrapy プロジェクトを作成します

scrapy startproject crawl_recipe

作成したプロジェクトに移動し、scrapy genspiderコマンドで Spider の雛形を作成します。
実行するとcrawl_recipe/spiders以下にrecipe.pyという Spider が作成されます。

cd crawl_recipe
scrapy genspider recipe (webサイトのドメイン)


Scrapy プロジェクトを作成後、プロジェクト配下にsettings.pyというファイルが作成されます。デフォルトだとrobots.txtの参照設定くらいしかないので、確認しておきましょう。


Scrapy では Item に scrapy.Item でスキーマを定義するというのが標準ではありますが、バリデーションの実装をある程度省くことができるので社内では代わりに Pydantic を使用しています。

ちなみに Spider から取得したデータを Items に変換する操作を Pipeline という機能でハンドリングすることができるので、もし Pydantic を利用せずにバリデーションを実施したい場合は Pipeline に独自バリデーションを実装する必要がありそうです。


from pydantic import BaseModel, Field
from pydantic.networks import AnyHttpUrl

class Property(BaseModel):
    recipe_name: str = Field(title="レシピ名")
    url: AnyHttpUrl = Field(title="URL")
    energy: int = Field(title="エネルギー(kcal)")
    salt: float = Field(title="塩分(g)")
    protein: float = Field(title="タンパク質(g)")
    vegetable_intake: float = Field(title="野菜摂取量(g)")

Spider を実装する

基本的にはクロールの起点となる URL を start_urls に定義し、そのページの HTML に対する処理を parse() に記述する形になります。ただし、ここでは何回かページ遷移をしないと目的のページに辿り着けないため、parse() 内でさらに別の URL にリクエストするというようなことをしています。(parse() -> __parse_recipe_urls() -> __parse_recipe_items() のように複数回リクエストを送っています)
この scrapy.Request メソッドでコールバックに設定したメソッドに適切に response を渡せるので便利ですね。ちなみに parse() 内でコールバックに parse メソッドを指定すると、再帰的なクローリングもできるようです。

import scrapy
from scrapy.responsetypes import Response
from crawl_recipe.items import Property

class RecipeSpider(scrapy.Spider):
    name = "recipe"
    allowed_domains = ["xxx.dokokanorecipesite.jp"]
    start_urls = ["https://xxx.dokokanorecipesite.jp/"]

    def parse(self, response: Response):
        keywords = self.__parse_keywords(response)

        for kw in keywords:
            url = f"https://xxx.dokokanorecipesite.jp/?search={kw}"
            yield scrapy.Request(
                url, callback=self.__parse_recipe_urls

    def __parse_keywords(self, response: Response) -> list[str]:
        return [
            for element in response.css("#content > div > div > div.wordList02.type01 > ul> li")

    def __parse_recipe_urls(self, response: Response):
        for recipe_url in [ li.css("div.img > a::attr(href)").get() for li in response.css("#popularityList > ul > li")]:
            yield scrapy.Request(
                recipe_url, callback=self.__parse_recipe_items

    def __parse_recipe_items(self, response: Response):
        properties = response.css("#recipeCard > div.recipeCardSpOrderWrap > div.wrap820.recipeCardSpOrder5 > div > div > div > div > div > ul")

        _recipe_name = response.css("#recipeCard > div.recipeArea > div.recipeTitleAreaType02 > div > div > h1 > span::text").get().strip()
        _energy = properties.css("li:nth-child(1) > div > span:nth-child(2)::text").get().split(" ")[0]
        _salt = properties.css("li:nth-child(2) > div > span:nth-child(2)::text").get().split(" ")[0]
        _protein = properties.css("li:nth-child(3) > div > span:nth-child(2)::text").get().split(" ")[0]
        _vegetable_intake = properties.css("li:nth-child(4) > div > span:nth-child(2)::text").get().split(" ")[0]

        yield Property(



また Scrapy では、自前で出力するスクリプトを実装しなくても Items の項目をファイルに出力するオプションが搭載されています。-oオプションで設定できます。ちなみに CSV ファイルを選択すると CSV にも出力することができます。

scrapy crawl recipe -o output.json

出力結果はこんな感じで出力することができます( JSON を出力形式に選択した場合)。

    {"recipe_name": "◯◯◯スープ", "url": "https://.../", "energy": 100, "salt": 2.1, "protein": 3.0, "vegetable_intake": 4.0},
    {"recipe_name": "×××の鍋", "url": "https://.../", "energy": 308, "salt": 7.0, "protein": 50.3, "vegetable_intake": 320.0},
    {"recipe_name": "△△△のケーキ", "url": "https://.../", "energy": 327, "salt": 0.2, "protein": 3.2, "vegetable_intake": 0.0},


超簡易的な内容にはなりましたが、Scrapy を使って簡易的なクローリングを試してみました。(本当はもう少し込み入った仕組みを紹介したかったのですが、それはまた別の機会で、、)
スクレイピングとかする際はフレームワーク入れずにゴリっと書いちゃう方が多いかと思いますが、機会があればぜひ Scrapy を使ってみてください!


SimpleForm のアドベントカレンダー、まだまだ面白い記事が上がる予定なのでお楽しみに!!!
