【オープンデータ分析①】都道府県別時間の使い方
今回の取組み
Tableau Data Saberの取組みの1つとして、Vizの投稿やブログ記事投稿があるのでやってみます。
今回はオープンデータを使ってなんか面白い分析出来ないかなということでやってみます。
オープンデータ
e-Statトップページ
せっかくなので、e-Statにあるオープンデータで面白そうなものを探してみます。
ちなみにe-Statは政府が各府省のデータを集めたポータルサイトです。暇があればぜひ。
データ抽出
データを抽出する時は色んなやり方があるので注意。オープンデータをソース毎持ってくるのは危険で、ようわからんクロス集計表や何かしらの報告用データになっていることもしばしば...
要するに使えないデータを持ってくるのではもったいないので、、
こんなかんじで必要なデータだけ項目毎に抜粋して抽出するのが吉。
とりあえず、みんな余暇時間に何してるのか気になったのでそれっぽい項目を選択しました。
年度 | 都道府県名 | 休養の平均時間 | 趣味の平均時間 | スポーツの平均時間 | 学習の平均時間 |
---|---|---|---|---|---|
2016 | 北海道 | ○○[分] | △△[分] | ◇◇[分] | □□[分] |
・・・ | ・・・ | ・・・ | ・・・ | ・・・ | ・・・ |
みたいなデータを抽出しました。
基本的には有業者なんですが、男と女でデータが分けられていたので仕方なく両方選択しました。
あとで計算フィールドでどうとでもなると。
- 年度
- 都道府県
- 男性(有業者)休養・くつろぎの平均時間【分】
- 女性(有業者)休養・くつろぎの平均時間【分】
- 男性(有業者)学習・自己啓発・訓練の平均時間【分】
- 女性(有業者)学習・自己啓発・訓練の平均時間【分】
- 男性(有業者)趣味・娯楽の平均時間【分】
- 女性(有業者)趣味・娯楽の平均時間【分】
- 男性(有業者)スポーツの平均時間【分】
- 女性(有業者)スポーツの平均時間【分】
結局こんな感じになりました。
めんどくせぇ
やっぱデータ分析って香り高いように思いますが、すごく地味で泥臭いんですよね。
分析1
というわけで準備できたので、Tableauで分析していきましょう。
まあ単純に気になったのは、スポーツと学習ってみんなどうしてるんだろうと。
とりあえず最新の2016年度のデータで散布図出してみます。
(てか、2016年以降ないんかい...)
都道府県別スポーツと学習の相関
こうして見てみると、
東京都
- スポーツの平均時間:10.5分
- 学習の平均時間:8.5分
青森県
- スポーツの平均時間:4.5分
- 学習の平均時間:2.5分
が特に目立ちます。倍以上開きがありますね。
都会の方がスポーツも学習も取り組んでいるとは、個人的に意外でした。
念の為、傾向線を引いてみます。
あんま関係なさそうっすね。
分析2
次に、年代別に「休養」「学習」「趣味」「スポーツ」の分布を調べてみます。
都道府県毎に出したいので、とりあえず箱ひげ図を使っていきます。
年代は、1976、1981、1986、1991、1996、2001、2006、2011、2016年と5年刻みであります。
ただ、「休養」「趣味」のデータについては1976年のデータがNULLになっていました。
仕方ないので除外...
休養・くつろぎ平均時間の分布
趣味・娯楽平均時間の分布
スポーツ平均時間の分布
学習・自己啓発・訓練平均時間の分布
といった形で、単一リストで切替ができるようにしました。
細かい部分は分かりませんが全体の傾向を見ると、下の表みたいなかんじかなと。
各項目 | 傾向 |
---|---|
休養の平均時間 | 年度が進むにつれて、全体的に増加傾向 |
趣味の平均時間 | 年度が進むにつれて、全体的に増加傾向 |
スポーツの平均時間 | 特に変化は見られない? |
学習の平均時間 | 年度が進むにつれて、全体的に減少傾向 |
一応、今回のデータは 「有業者」 に絞っています。
より休みや趣味に使う時間を重視しているように見えますね。
分析3
分析1と2を踏まえて、「スポーツ&学習の時間が長い都道府県」は休養&趣味にかける時間はどうなっているのか気になったので分析してみます。
分析1で行った散布図からクラスターで分類した後、セットを作成します。
「スポーツ&学習の時間が長い都道府県」 と
「スポーツ&学習の時間が短い都道府県」 に分けます。
年代別休養・くつろぎの平均時間について、それぞれのクラスターがどんな割合か見てみます。
「スポーツ&学習の時間が短い都道府県」の方が倍くらい時間を割いていることが分かります。
というわけで、色々と迷走しましたが以下のように結論づけます。
まとめ
正直結論出すにはもうちょっと色んなデータを取ってくればよかったと反省。。
あとはオープンデータといえど、加工したり計算式でまとめたりと手間どったのが痛かった。
また気が向いたら違う統計調査で分析してみようと思います。
↓今回作成したViz
Discussion