🥟

「肉汁餃子のダンダダン」の店舗情報をWebスクレイピングして地図上に可視化してみる

2023/01/11に公開

概要

「最近ダンダダンていう居酒屋よく見るな〜」と思い、試しに地図上に可視化してみました。
肉汁餃子のダンダダンは餃子が美味しい居酒屋です。
餃子アイスも美味しいです。

https://www.dandadan.jp/

手順

1. ダンダダンのサイトから店舗情報をスクレイピング
2. 住所から緯度経度を取得(ジオコーディング)
3. kepler.glで可視化

1. ダンダダンのサイトから店舗情報をスクレイピング

まずはダンダダンのホームページの店舗情報から店舗名と住所をスクレイピングしたいと思います。
GoogleCoraboratoryを用いてスクレイピングをします。
https://www.dandadan.jp/shop/

スクレイピングについては、はやたすさんの動画を参考にしました。

ライブラリのインポート

スクレイピングとデータ加工に必要なライブラリをインポートします。

# ライブラリのインポート
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import requests

取得すべき情報を確認

ホームページのどこから情報を取得すればいいのかを確認します。
店舗情報のページを検証してみるとdivタグのshoplistのクラスの情報を取得すればいいということがわかりました。

スクレイピングの実行

それでは以下のような流れでcontentsという変数に取得した情報を格納します。

# ダンダダン店舗のURL
url = 'https://www.dandadan.jp/shop/'

# urlへのアクセス結果を、変数rに格納
r = requests.get(url)

# 取得結果を解析してsoupに格納
soup = BeautifulSoup(r.text)

# shopListクラスを持ったdivタグを全て取得して、変数contentsに格納
contents = soup.find_all('div', class_='shopList')

contentsの要素数を確認すると128個ありました。
すなわち128店舗の情報を取得できたということです。

1つ目の要素を確認してみましょう。

欲しいのは店舗名と住所なのですが余計な情報が色々含まれていますね。
divタグのshopNameというクラスから店舗名を、pタグのaddressというクラスから住所を取り出してみたいと思います。

# 店舗名の情報を変数shopnameに格納する
shopname = content.find('div', class_='shopName').text

# 住所の情報を変数addressに格納する
address = content.find('p', class_='address').text

確認してみます。
余計な文字列が含まれていますが、取りたい情報は取得できたのでよしとします。

取得した情報をデータフレーム化

それではfor文で128店舗分の店舗名と住所を取得し、データフレームにまとめたいと思います。

# 空のリストを作成
shopname_list = []
address_list = []

# forループ
for content in contents:
    # 店舗名の情報を変数shopnameに格納する
    shopname = content.find('div', class_='shopName').text
    # 住所の情報を変数addressに格納する
    address = content.find('p', class_='address').text

    # 空のリストに格納
    shopname_list.append(shopname)
    address_list.append(address)

# shopname_listとaddress_listをデータフレーム化
dnddn_df = pd.DataFrame(
    data={'shopname' : shopname_list,
          'address' : address_list}
          )

以下のようなデータフレームを作成することができました。

データの加工

余計な文字列が含まれているので削除したいと思います。
店舗名については「\t」以降を削除する処理を行います。
住所については「\n住所」、「\u3000」という文字列、「\r\n」以降の文字列が不要なのでそれらを削除する処理を行います。

# 店舗名の不要な部分を削除する関数
def shopname(name):
    s = name
    target = '\t\t\t'
    idx = s.find(target)
    return s[:idx]

# 住所の不要な部分を削除する関数
def Address(address):
    s = address[3:]
    target = '\xa0\n '
    idx = s.find(target)
    new_address = s[:idx]
    return new_address.replace('\u3000', '').replace('\r\n', '')

# shopnameの不要な部分を削除
dnddn_df['shopname'] = dnddn_df['shopname'].apply(lambda x: shopname(x))

# addressの不要な部分を削除
dnddn_df['address'] = dnddn_df['address'].apply(lambda x: Address(x))

綺麗なデータフレームにすることができました。

このデータフレームをcsvにして保存します。

2.住所から緯度経度を取得(ジオコーディング)

住所から緯度経度情報を取得する(いわゆるジオコーディング)には様々な方法がありますが、
今回は件数もそこまで多くないのでスプレッドシートでカスタム関数を作成してジオコーディングを行いたいと思います。
詳しくは以下の記事にあります。

以下のようなコードでカスタム関数を作成します。

function geocoder(cell) {
   try{
      const response = Maps.newGeocoder().geocode(cell)
      if(response['results'][0] != null){
        return response['results'][0]['geometry']['location']['lat']+","+response['results'][0]['geometry']['location']['lng'];
      }
   }catch(e){
     return "error";
  }
}

これを実行してみます。

緯度経度を取得することができました。