日本版 Google COVID-19 Forecast データを眺める
昨年春と夏の流行の時は既に失業中だったので「他人事」だったが,さすがに今回はそういうわけにはいかないので,自分が住んでいる地域以外の(出張先とかの)都道府県別 SARS-CoV-2 ウイルス感染状況の傾向を調べようと考えている。
情報歓迎
統計情報を取得する上で重要なのは「一貫性」と「一覧性」であるが,何故か日本は(お役所が公開している情報を見る限り)各都道府県ごとにてんでに集計・公開している印象である。NHK とかのメディアが出している値は「現時点の(見せたい)値」しか見せないので論外。あとは企業・団体が集計したものから探すしかない。
実は,今までは WHO のデータを参照していたのだが
これは基本的に国別情報で,国内の詳細情報はない。まぁ,国際組織なら当然か。
これ以外で使えそうなものを探してみたが,日本版 Google COVID-19 Forecast が比較的まともかなぁ。
このサービスで CSV ファイルも提供されている。
CSV は UTF-8 エンコーディングなので Windows の Excel 等で読み込む場合はご注意を。たとえば,拙作の gnkf を使って
$ gnkf enc -f forecast_JAPAN_PREFECTURE_28.csv -o forecast_JAPAN_PREFECTURE_28_sjis.csv -d shift_jis
てな感じに変換できる。広告でした(笑)
Google COVID-19 Forecast、予測モデルのトレーニングにGoogleマップでの移動データも使ってるんですね。これはGoogleだからできる技…。
私は「経済アナリストと競馬の予想屋は同じ穴の狢」という不遜な偏見を持つ人間なので, Google の「AI 予測」とやらも殆ど信用していない。
ただ,上に挙げた CSV ファイルでは実測値と予測値を都道府県別に4週間分ずつ掲載しているので,「直近4週間+予測1週間」くらいで見れば大雑把な傾向は分かるかな。
CSV の内容については,以下のカラムを参照すればいいだろう。
カラム名 | 内容 |
---|---|
japan_prefecture_code | 都道府県コード(JP-99 形式) |
prefecture_name | 都道府県名(ローマ字) |
target_prediction_date | 日付 |
cumulative_confirmed_ground_truth | 感染者のべ数(実測値) |
cumulative_deaths_ground_truth | 死者総数(実測値) |
hospitalized_patients_ground_truth | 入院・療養等患者数(実測値・日別) |
recovered_ground_truth | 回復者数(実測値・日別) |
forecast_date | 計測実施日 |
new_deaths | 追加死者数(予測値・日別) |
new_confirmed | 追加感染者数(予測値・日別) |
new_deaths_ground_truth | 追加死者数(実測値・日別) |
new_confirmed_ground_truth | 追加感染者数(実測値・日別) |
prefecture_name_kanji | 都道府県名(漢字) |
んー。こんだけあれば何とかなるかな。
というわけで日本版 Google COVID-19 Forecast データを使って簡単なグラフを書いてみた。
図は広島県で直近4週間の実測値+1週間の予測値について7日単位でヒストグラムにしたもの。大雑把ではあるが,感染が収束に向かっていることが分かる。
これなら使えるかな。