【論文紹介】機械学習と地理空間情報を活用した周辺の過去の賃料情報を用いたアパート賃料推定
SREホールディングス株式会社のデータサイエンティストの天海です。
AI査定の改善活動の一環として、論文調査を行っています。
今回は、特徴量作成に関する興味深い論文を一つ紹介します。
論文名「機械学習と地理空間情報を活用した周辺の過去の賃料情報を用いたアパート賃料推定」
概要
- アパート収支の評価時点における賃料を予測対象とする
- 緯度経度情報を基にした下記の4つの特徴量を作成し、精度評価を行なった
- メッシュ単位の周辺過去賃料
- k近傍法による各物件の周辺過去賃料
- ハザードマップ情報
- 公示価格
手法
メッシュ単位の周辺過去賃料
メッシュ単位の周辺賃料では、同一メッシュIDおよび指定した期間が類似している物件の賃料の中央値を特徴量とする。
例えば、
メッシュIDが500の物件で専有面積18
k 近傍法による各物件の周辺過去賃料
学習を行なったk近傍法の回帰モデルを使って、対象の物件の周辺平均賃料を算出し、これを特徴量とする。
例えば、
目的変数を賃料、説明変数を緯度経度もしくは緯度経度・築年数・面積として、2019年第1四半期の物件に対して2018年第1四半期から第4四半期の過去データを用い、k近傍法の学習を行う。
このk 近傍法の学習済みモデルを用いて、2019 年第1四半期の評価対象物件の緯度経度などの情報に基づき、予測値を計算する。この予測値は、対象物件の近傍の過去1年間の平均賃料となる。
ハザードマップと公示地価
ハザードマップの情報を国土交通省国土数値情報から取得し、洪水の浸水、津波の浸水、土砂災害の警戒区域の情報を物件に紐づけて、特徴量とする。
公示地価も国土交通省国土数値情報から取得し、各物件に対し最近傍の公示地価を紐づけて、特徴量とする。
実験と結果
都道府県別にモデルを構築し, 各特徴量による精度の改善効果を確認。
上記の特徴量に加えて、部屋面積や間取りなどの物件の設備情報や最寄り駅等の交通利便性にかかわる特徴量を使用。予測モデルには、LightGBMを使用。
論文では、主な都道府県のMER(絶対誤差率中央値)と全国平均のMERの結果を表にまとめて示している。
以下の表は、筆者が一部抜粋し、作成し直したものである。
モデル | 市区町村等 | 緯度経度 | 公示地価 | k近傍 | 災害 | 東京都 | 全国平均 |
---|---|---|---|---|---|---|---|
1 | 0-1 | 8.98% | 6.08% | ||||
3 | 0-1 | 原数値 | 4.92% | 4.89% | |||
7 | 過去賃料 | 過去賃料 | 〇 | 3.92% | 3.73% | ||
8 | 過去賃料 | 過去賃料 | 〇 | 〇 | 3.18% | 3.39% | |
9 | 過去賃料 | 過去賃料 | 〇 | 〇 | 〇 | 3.17% | 3.38% |
上記の表で比較する変数の説明
- 市区町村等「0-1」:市区町村や最寄り駅をone-hot化したダミー変数
- 市区町村等「過去賃料」:市区町村や最寄り駅単位の過去賃料の中央値
- 緯度経度「原数値」:緯度経度を全く調整や加工をしていない数値
- 緯度経度「過去賃料」:メッシュ単位に基づく過去賃料の中央値
- 公示価格:最近傍の公示地価
- k近傍:k近傍により算出した物件周辺の過去平均賃料
- 災害:ハザードマップの地理空間情報
この表によると、MERを大きく改善させた特徴量は、市区町村等「過去賃料」、緯度経度「過去賃料」とk近傍であることがわかる。
ハザードマップに基づく特徴量について比較してみると、市区町村を 0-1 変数でとらえている場合、0.01%ポイント程度 MER が改善されたが、緯度経度に基づく特徴量を加えると災害情報追加によるMERの改善幅は減少し、ほぼ改善が無い結果となったことを確認できる 。
感想
特徴量をさまざまなパターンで試しているため、この特徴量の有効性を細かく検証しており、特徴量を入れるお手本となるような論文であった。
例えば、k 近傍法による各物件の周辺過去賃料を特徴量として入れる際に、過去1、2、4年で分けたり、k近傍の回帰モデルに入れる特徴量なども変えたりしている。
精度だけを確認して進めるのではなく、特徴量の有効性を網羅的に検証する分析ステップを見直す良い論文であった。
Discussion