[論文紹介] Web検索データによる災害時ニーズ可視化の研究
1. はじめに
こんにちは株式会社D2C(以下D2C)でデータサイエンティストをしている井上です。
本記事では、2024年能登半島地震における被災地の情報ニーズをWeb検索データから分析した研究 である「Elucidating ever-changing information needs for the 2024 Noto Peninsula Earthquake using web search queries」を紹介します。
私自身も検索クエリ分析を行っているのですが、その中で、国内最大規模の検索データを保有するLINEヤフー株式会社が発表した論文が目に留まりました。
同社が、検索クエリをどのように研究や分析に活用しているのかに強い関心を持ち、読み進めたところ、非常に学びの多い内容だったため、今回記事としてまとめました。
1.1 記事の要約
- 目的:Web検索クエリから災害時の「人々の情報ニーズ」を定量的に把握する
- 手法:異常度スコアを用いた新手法「Anomaly-based Importance Scoring (AbIS)」を提案
- 結果:災害発生直後から復興期まで、ニーズが「停電・断水」→「通信」→「水回り」→「生活再建」のように段階的に変化する
2. 背景
2024年1月1日、最大震度7の地震が能登半島を襲い、建物被害は11万棟以上に達しました。
奥能登地域では土砂崩れや道路寸断により多数の地区が孤立し、現地で人々が何を求めているのかを把握することが極めて困難でした。
そこで筆者らは、Yahoo! JAPANなどのWeb検索データを用いて、被災地における情報ニーズを時系列で分析し、SNSやアンケートでは掴みきれない「時間とともに変化する具体的なニーズ」を明らかにすることを目的としているようです。
3. AbISとは
被災地と他地域の検索傾向を比較し、「被災地でのみ異常に多く検索されたクエリ」を抽出します。
この異常度合いをスコア化することで、その時点で特に強い情報ニーズを定量的に捉えることを可能にしました。
この仕組みが「Anomaly-based Importance Scoring (AbIS)」です。
3.1 データ概要
- 対象地域:輪島市、珠洲市、穴水町、能登町
- 期間:2024年1月1日〜6月23日
- 匿名化処理:k=9のk匿名化・難読化を実施し、個人が特定されないよう配慮
3.2 学習フェーズ
- 被災地域を「正例」、他地域を「負例」として分類モデルを学習
- モデルには線形回帰を採用し、各検索クエリの寄与度(重み)を算出
- 「能登半島」など地域固有語に偏らないよう、空間ストップワードを導入して補正
3.3 データクリーニング
- 数字・助詞・日付・人名などをストップワードとして除外
- 異常度スコアがその日の最大値の1/10未満のクエリを除去
- 日ごとの分布をZスコアで正規化し、「情報ニーズ強度スコア」を算出
これにより、「特定トピックが急騰した日」や「ニーズが多様化した日」を統計的に検出できるようになりました。
4. 情報ニーズの時間パターン(方法)
抽出された多様な検索クエリをそのまま個別に追うのではなく、全体の動態と優先順位を把握するために「分類して時間変化をみる」方針をとっています。具体的には、まず抽出クエリを5つのカテゴリ(表1)に整理し、各カテゴリの強さ(重要度)とその時間的変化を評価します。これにより、災害対応における全体のトレンドや優先度を俯瞰できるようにしています。
表1. Web検索クエリの分類
| 番号 | カテゴリ名 | 説明 | サブカテゴリ |
|---|---|---|---|
| 1 | 災害と状況(Hazard and Situation) | マグニチュード、震度、発生場所、発生メカニズムなどのハザードと、それに伴う火災、津波、土砂崩れなどの災害、被災地の安否確認や災害関連情報などの状況 | 災害(Hazard)、火災(Fire)、損害(Damage)、警告/情報(Warning / Information)、安全性(Safety) |
| 2 | 交通(Transportation) | 道路や交通状況などの交通網、鉄道や飛行機などの公共交通機関の運行状況、駅や空港などの関連施設、ガソリンの空き状況や地図などの運転に関するナビゲーション情報 | 道路とドライブ(Road and Drive)、地図とナビゲーション(Maps and Navigation)、電車と駅(Train and Station)、フライトと空港(Flight and Airport)、公共交通機関(Public Transportation) |
| 3 | 基盤インフラ(Critical Infrastructure) | 水道、電気、通信などの生活に不可欠なインフラ、トイレやシャワーなどそれらに依存する日常生活、郵便や各種配送などの交通サービス | 水道(Water Supply)、洗濯・シャワー・風呂(Laundry / Shower / Bath)、電気(Electricity)、通信(Communication)、配達サービス(Delivery Service) |
| 4 | 対処と復興(Coping and Recovering) | 避難、仮設住宅、宿泊施設などの安全対策、避難所での生活環境、罹災証明書の交付や申請などの支援サービス、職業指導や助成金などの雇用や生活再建に関する支援 | 避難所・罹災証明書(Sheltering / Disaster Victim Certificate)、経済的支援(Financial Support)、ボランティア・援助(Volunteers and Aid)、就労支援(Job Support) |
| 5 | 日常生活(Daily Life) | 食料品、電化製品、自動車などの生活必需品とその購入情報、スーパーマーケットやドラッグストアなどの商業施設、テレビ、動画配信サービス、マンガなどの娯楽施設に関する情報 | 車関連(Car-related)、アメニティ(Amenity)、ショッピング(Shopping)、食品(Food) |
4.1 多様性(Diversity)の把握
日ごとに集まる検索クエリはスケール(分布の幅や最大値)が異なるため、単純な日ごとの比較は誤解を招く可能性があります。そこで、各日の異常度スコアをZスコアで標準化し、共通の尺度で比較できるようにします。論文では、この標準化済みスコアを「情報ニーズ強度スコア(ISIN)」として定義しています。可視化には箱ひげ図を用いおり、外れ値を示すことで、カテゴリ内の強度分布と外れ値(突出したニーズ)を直感的に把握できるようにしています。
4.2 変化(Shifts)の把握
時間変化を捉えるため、まず各日の異常度分布を日次で正規化します。その上で、各カテゴリに属するクエリの正規化後異常度を抽出して集計し、
- カテゴリ全体の強度=当該カテゴリ内クエリの「正規化後異常度の総和」
- カテゴリ内の相対強度=各クエリの「正規化後異常度 ÷(当該カテゴリの総和)」
として定義します。これにより、「どのカテゴリが強かったか」に加えて、「そのカテゴリの中でどのトピックが相対的に強かったか」を時系列で評価できます。
5. 結果と考察
5.1 異常スコアから見た情報ニーズの変化
異常な情報ニーズの検出(図の下部は気象庁の地震データベースから集計した震度データ)
[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
2024年1月1日から6月23日までの間に、能登半島の4自治体(輪島市、珠洲市、穴水町、能登町)から取得した15,107件のWeb検索クエリを分析対象としています。
このうち、異常スコア(Anomaly Score)が正の値を取る4,790件を抽出し、尖度(kurtosis)および歪度(skewness)を用いて情報ニーズの異常性を評価しています。
分析結果(上記図)では、横軸を日付、縦軸を左に歪度(赤)、右に尖度(青)として示し、実線が7日移動平均、破線が日次の値を表しています。
閾値として尖度7.0、歪度2.0とし、これらの閾値を超える日を「異常日」として検出しています。
結果として、尖度または歪度の閾値を超えた日は21日間であることが確認されました。
これらの異常日で最も高い異常スコアを示したクエリは、主に以下の3種類にカテゴライズできます。
- 地震関連クエリ:「能登半島地震」「緊急地震速報」など
- イベント関連クエリ:「ブルーインパルス」「天皇陛下ご訪問」「高校野球石川県大会」など
- 地理・地域関連クエリ:「能登」「七尾市」など
地震関連クエリの異常スコアのピークは、実際の地震発生数とは必ずしも一致していない(相関はない)ようです。
5.2 情報ニーズの多様性と5カテゴリの分類
抽出された検索クエリは、内容の特徴に基づき、以下の5つのカテゴリに分類されています。
| No. | カテゴリ名 | 内容概要 |
|---|---|---|
| 1 | Hazard and Situation(災害・状況) | 地震規模、震源地、津波、火災、安否確認など |
| 2 | Transportation(交通) | 道路状況、鉄道・航空の運行、ガソリン、ナビ情報など |
| 3 | Critical Infrastructure(基盤インフラ) | 水道、電気、通信、郵便・配送などの生活基盤 |
| 4 | Coping and Recovering(対応・復興) | 避難所、罹災証明書、義援金、雇用支援など |
| 5 | Daily Life(日常生活) | 食料、家電、車、商業施設、エンタメなど |
情報ニーズの多様性の時間的パターン[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
各カテゴリの情報ニーズは、日ごとの異常スコアを正規化し、カテゴリ内で集計することで算出されています。
可視化には箱ひげ図が用いられており、各日の最大・最小・平均値をそれぞれ赤・青・黒の実線で表示し、外れ値を赤点で示しています。 さらに、時系列的な傾向を見るために14日間の移動平均を適用しています。
カテゴリ別のデータ件数は以下の通りです。
- 災害・状況(69件)
- 交通(73件)
- 基盤インフラ(101件)
- 対応・復興(86件)
- 日常生活(244件)
分析では、各クエリに対して異常度スコア(AbIS)と情報ニーズ強度スコア(ISIN)を算出し、それぞれが「どの時期に」「どの分野で」高い関心が見られたかを定量的に評価しています。
これにより、被災地における情報ニーズの時系列的な変化を、客観的な数値として把握できるようになっています。
5.3 各カテゴリにおける主な動向
より詳しい検索クエリ結果は、元論文のTable 3をご参照ください。
(1)Hazard and Situation(災害・状況)
発災直後から「能登半島地震」「緊急地震速報」などのクエリが継続的に高い異常スコアを示し、半年経過後も関心が衰えていません。
特に「行方不明者」や「DMAT(災害医療チーム)」などの検索が1月上旬に集中しており、初動期における安全確認・医療対応への関心の高さが読み取れます。
(2)Transportation(交通)
「道路情報」「通行止め」「ガソリンスタンド」などのクエリが発災直後に集中し、その後は「金沢駅」「のと鉄道」など鉄道関連へとシフト。
道路復旧から公共交通再開への関心移行が明確に現れています。
(3)Critical Infrastructure(生活インフラ)
「停電」「水道」「トイレ」など生活インフラに関するクエリが1月上旬に急増。
2月以降は「水関連」クエリが中心となり、3月以降はほぼ安定化。
電力 → 通信 → 水道 → 入浴施設といった順に関心が遷移する様子が見られます。
(4)Coping and Recovering(対応・復興)
「罹災証明書」「義援金」「ボランティア」「ハローワーク」など、復興支援や雇用に関するクエリが2〜4月に増加。
特に「義援金」の検索は2月末〜3月初旬にピークを迎え、経済支援・生活再建段階への関心移行を示しています。
(5)Daily Life(日常生活)
発災直後は検索活動が少なかった一方で、2月以降は「スーパー」「外食」「家電」「自動車」「動画配信」など、生活再建と娯楽の両面で“日常回帰”を反映するクエリが増加しました。
このカテゴリは、他のカテゴリが落ち着いた後に上昇する点が特徴的です。
5.4 情報ニーズの変化
本研究では、表1で整理されたカテゴリおよびサブカテゴリに基づき、各分野の情報ニーズが時間とともにどのように変化したかを分析しています。
その結果は、以下の図のように時系列グラフとして示されており、上段が日ごとの標準化・累積異常スコア、下段がサブカテゴリごとの異常スコア外れ値の割合を表しています。
赤い実線は7日間の移動平均を示し、日ごとの変動傾向を可視化しています。
(1)Hazard and Situation(災害・状況)
災害と状況における情報ニーズの強度変化[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
このカテゴリでは、発災直後から1月10日前後にかけて情報ニーズが急上昇し、その後1月下旬まで高い水準を維持しました。
特に「緊急地震速報」が頻繁に検索されており、奥能登地方で地震が発生していない時でも検索されていることから地震情報への迅速なアクセスが求められていたと思われます。
また、「行方不明者」や「DMAT(災害派遣医療チーム)」など安全確認・医療関連の検索も継続的に見られ、初動期における医療・救助への情報需要の強さが明らかになりました。
(2)Transportation(交通)
交通分野における情報ニーズの強度変化[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
交通関連の検索では、「のと里山海道」や「通行止め」が1月に特に多く、1月2日〜24日にかけて多数の日で異常スコアが最大値を記録しました。
また、「ガソリン」「ガソリンスタンド」など燃料関連の検索も1月に集中し、2月以降は減少しています。
一方で、3月以降は「鉄道」に関する検索が増加し、4月には交通関連の多くが鉄道へと移行しています。
道路から鉄道へと関心が移る様子が、データから明確に読み取れます。
(3)Critical Infrastructure(基盤インフラ)
基盤インフラにおける情報ニーズの強度変化[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
ニーズ強度は緩やかに減少し、特に3月上旬に大きく低下しています。
生活インフラ関連では、「停電」「断水」「通信」「宅配」などが主に1月上旬に集中しました。
2月以降は水や入浴施設に関する検索が多いです。
電力 → 通信 → 水道 → 入浴施設といった段階的な移行が確認され、ライフラインの回復状況に応じて関心が変化していく様子が把握されています。
(4)Coping and Recovering(対応・復興)
対処と復興における情報ニーズの強度変化[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
「罹災証明書」「避難所」「義援金」「復興」「ハローワーク」といったクエリがこのカテゴリに含まれます。
特に「義援金」は2月末から3月初旬にかけて異常スコアが複数回記録され、金銭的支援・生活再建に関する情報需要が高まった時期を反映しています。
4月下旬には「ハローワーク」に関する検索が増加し、被災者の雇用や再就職に関する関心の高まりが確認されました。
(5)Daily Life(日常生活)
日常生活における情報ニーズの強度変化[出典:https://www.sciencedirect.com/science/article/pii/S2590061724000760]
日常生活関連の検索は、発災直後にはほとんど見られませんでしたが、1月下旬から増加に転じました。
「スーパー」「外食」「家電」「自動車」「動画配信」などが頻繁に検索され、特に4月以降に外れ値が多く観測されています。 このことから、娯楽や消費活動など“日常回帰”を象徴する行動が徐々に顕在化していったことが分かります。
5.5 考察と展望
これらの分析結果から、人々の情報ニーズは災害発生直後の安全・交通・ライフラインから、次第に生活再建・雇用・娯楽へと移行していることが示されました。
検索クエリというミクロな行動データから、災害後の社会的関心の移り変わりを定量的に追跡できる点が本研究の大きな貢献です。
特に、AbISによる異常スコア設計とISINの導入によって、従来のトレンド分析では捉えにくかった地域固有の情報需要の動態が明確に可視化されています。
6. 感想
本論文を読んで特に印象的だったのは、Web検索データが災害現場の「生きた声」に近い情報源として機能しているという点です。
検索クエリは基本的に短い単語列であり、SNSの投稿のような文脈的情報を欠くため、そこから人々の具体的なニーズを抽出するのは難しいと考えていました。
しかし本研究では、統計的手法と異常スコアの設計によって、わずかな検索語の変化からも被災地の情報ニーズを高い精度で捉えており、大変勉強になりました。
株式会社D2C d2c.co.jp のテックブログです。 D2Cは、NTTドコモと電通などの共同出資により設立されたデジタルマーケティング企業です。 ドコモの膨大なデータを活用した最適化を行える広告配信システムの開発をしています。
Discussion