データ分析におけるグラフ作成の要点
はじめに
勉強したことの消化のためと備忘録としての記事をのこす
これまでの経験上、グラフを作ることは、それ自体が目的にはならなかった。
論文に載せるグラフは伝える内容を補強するためのもの、
機械学習でおこなうEDAでほかの人がよくグラフを作成するので、それにならって同じことをしていた。
などなど...
しかし、「グラフ作成を工夫してうまく行うことで得られる知見がある」ということを軽視してはいけない。これがこの記事のテーマである。
この記事の構成は以下の通り
- 導入:記事のテーマ、題材にする問題を伝える
- 本文:学んだことの解説
- 具体例
- 結論:記事のまとめ
出典:https://www.youtube.com/watch?v=_flMp3iD8z4
学んだことの解説
学んだこと。グラフを作る前に...
- 知りたいことを1つ明確にする
- グラフを構成する要素の長所短所を理解する
知りたいことを1つ明確にするとはどういうことか
この答えを探るためにはデータ分析をする目的まで立ち返る必要がある。
なぜデータ分析を行うのか。
kaggleで順位を上げるためか、施策を立ち上げるヒントを得るためか。
理由は数多くあれど、それらに共通することは答えを得るためということである。
kaggleで順位を上げるために注目するべき特徴量は何か、
施策における対象は何を選ぶと最も効果的なのか、
その答えを得るためにデータを分析するのである。
しかし、データを相手にする以上、自分から答えを見つけに行かなければならないし、
知りたい答えをデータが教えてくれるわけではない。
だから、知りたいことを1つ明確にするべきなのである。
なぜ1つなのか、それはそのほうがわかりやすいからだ。
一般に人間はマルチワークが苦手である。
1つのデータ分析で、1つ以上の答えを探そうとすればそれはマルチワークである。
その分析をするのも、それを伝えようとするのも、また、それを受け取る側も、疲れるし大切な答えを見落とすかもしれない。
だから1つなのだ
グラフを構成する要素の長所短所を理解するとはどういうことか
これは、グラフを見ているときに実際何を見て判断しているかということである。
たとえば、棒グラフであれば棒の長さ、円グラフなら角度を見て違いを区別しているということを言っている
何を見て判断しているのかを理解することで、効果的なグラフを選ぶことができるようになる。
これはpreattentive attrevuteという聞きなれない言葉によって表され、研究されている。
この内容を簡潔にまとめたサイトが以下にある
この記事でこれらをすべて扱うことはテーマから外れるため省略するが、
しいて言えば、特に注意すべき要素は、位置と色である。
位置というのは棒グラフの長さや散布図の座礁といった、画面上の位置関係によって示される要素である。
色に関しては、赤や黄色という要素だけでなく、薄い赤、濃い赤という要素があることを忘れてはならない
これら色相と彩度の違いはグラフにおいて異なる役割を持つからである。
具体例
このグラフを見て、作者が何を知りたくて作ったグラフなのか理解できるだろうか。
よく見ると「割引率と利益の関係性」というタイトルがあることに気が付く
そこでグラフを見直すと、青が利益率、橙が割引率であることがわかる(右の凡例)
グラフの形を見ると、明らかに同期した値でないことはわかる。
さらによく見ると、橙の線が上がると青の線は下がる傾向が見える。
そこから読み取れることとしては「割引率を上げると利益率が下がる」である
以上の考察を踏まえてグラフを次のように作り直した。
このグラフは散布図と呼ばれる
わずかではあるが、利益率が高いほど、利益率は低い傾向が見える
また、そのことを補強するために傾向線を追加した
グラフにおける円の位置が、利益率と割引率を表現しているのである
このように、知りたいことと、グラフの要素が対応していることで分かりやすくすることができるのである。
結論
「グラフ作成を工夫してうまく行うことで得られる知見がある」ということを軽視してはいけない
このことを具体例を交えて簡潔に示した。
より詳細は出典を見てもらえると理解できると思われるが、2時間以上ある動画を見るのは大変だ
しかし、この記事の内容が有益と思われたのなら見て、さらに取り組むことをお勧めする
Discussion