📊

なぜデータの可視化をするのか

2021/11/01に公開約2,500字

なぜデータの可視化をするのか

以下は、可視化の重要性を解くのによく使われる「アンスコムの数値例」[1]というデータです。

Ⅰ・Ⅱ・Ⅲ・Ⅳについてそれぞれどんな傾向のデータか知りたいですね。
では、これの平均・分散などの「統計量」を計算してみましょう。

Xの平均 9.0 9.0 9.0 9.0
Xの分散 11.0 11.0 11.0 11.0
Yの平均 7.5 7.5 7.5 7.5
Yの分散 4.1 4.1 4.1 4.1

実は、Ⅰ・Ⅱ・Ⅲ・Ⅳのどのケースも全く同じ統計量になります。
すると全て同じ傾向のデータに見えますね、しかしこれを散布図として可視化すると以下のようになります。

散布図を見てひと目でわかるように、各ケースは全く異なる傾向をもつデータであったことがわかりました。
それにも関わらず、平均や回帰直線はこの4つのデータでまったく同じものになります。
このように、データの可視化は数値的な統計量だけでは気づけないことをも一瞬で知ることができます。

私たちはきれいだからチャートを使うのではなく、
正しくデータを理解し、適切な意思決定をするために必要だから使うのだということを覚えておきましょう。

参考文献

著書:
データドリブンの極意
データビジュアライゼーションの教科書

動画:
DATA Saber Boot Camp Week2 "Visual Best Practice: Art and Science of Visual Analytics"
mac bryla blog - Data Matters

脚注
  1. アンスコムの数値例(Anscombe's Quartet) ↩︎

Discussion

ログインするとコメントできます