📈

データ分析レポートで気をつけたい基本的なこと

2020/09/23に公開

この記事はビジネスにおいてデータ分析のレポートを作成する際に気をつけたほうがよいことを自分なりにまとめたものです。間違いやすい点なんかを集めたTIPSみたいな記事になっています。
レポートの書き方そのものについては良い書籍や記事がたくさんありますのでそちらを参照することをオススメします。

この記事は以前にnoteで執筆した記事を加筆修正したものであり、過去にblogに投稿したもののコピペです。

前提

データ分析のレポートでは基本構成としてIMRAD形式に則るのが良いです。IMRADとはIntroduction, Methods, Results And Discussionの頭文字を取ったもので、特に論文でよく使われる構成です。シンプルですが科学的検証に向いた形式でありデータ分析もデータを元に客観的に検証するという観点からIMRAD形式に合わせると適切に記述・検証することが可能になるので強く推奨です。逆に言えば、ビジネスのプレゼンテーションにありがちなインパクトを優先する恣意的な印象を与える方法は基本的にはNGです。

一方で、ビジネスの現場では重要な点をすぐに把握できる形が好まれます。そのため記述する形式はIMRADに限る必要はありません。私がよくやる方法は抄録を冒頭に置いてそれだけで要点をすぐに把握できるようにし、詳しく読みたい人向けに後ろにIMRAD形式で記述する方法です。要約には基本として議論を理解できる最低限の前提と手法そして重要な結果と考察を技術します。要約を書くことはとてもむずかしいです。ぜひ訓練を積みましょう。

Introduction

この章では分析の目的・背景を記述します。あなたが何を目的にこの分析を行い、何を得たいのか明確にわかるように書きましょう。目的や背景を書くときに重要なことは、データ分析では分析の結果からどんな結果を得たいのか記述することです。これがなければ分析の意味がないので当然ながら重要な事柄になります。データ分析の目的は抽象化すると下記の3パターンにわけられます。

  1. 仮説をデータから検証する

  2. 変化を検知するために定常的なデータを取得する

  3. 数字感覚を知るために探索的分析をする

手元の分析が上記のどれに当てはまるのか分類し、それを踏まえて記述するとよいでしょう。たとえば、あなたが1番の仮説検証を行いたいのであれば、どんな仮説があり・どんな検証が必要で・その結果としてどんな判断をとることができるのか書くことになります。

背景を記述する際に気をつける点として、その分析が妥当であることを明記することが挙げられます。分析を行うまでには様々な背景や先行調査などがあるかと思います。それらを記載することで分析が妥当であることを説明します。1つの課題に対して手段は複数ありますが、なぜあなたはその手法を行ったのでしょうか?この問に対して十分な回答をここに記載する必要があります。もし、背景を省略した場合はあなたの分析が必要であることが伝わらず価値を理解してもらえないかもしれません。そのような状態を避けるために背景を記載することが重要です。そして、その背景は事前に関係者と共有し理解を得ていることが望ましいです。

Method

この章では分析の対象や手法をすべて記載します。あなたがどこからデータを取得してきてどのように分析したのかわかり、再現できるようにしましょう。

基本として書くべきことは母集団の説明、データの取得方法(クエリやアンケート方法)、分析方法(特に統計的手法)です。ありがちなのが母集団に関する説明の不足です。データをどのような母集団から得たのか明記しましょう。データは取得した母集団によってバイアスを受けるため、バイアスに留意した記述が必要になります。

手法を記述する基本は5W1Hを用いた方法です。ビジネスの現場では特定の属性を対象にデータを集めることが多いと思うので、そのような事前に決めていた属性は網羅的に記述します。データの取得方法はアクティビティなどをデータベースから取得した場合は意図的に絞り込んだ条件の記載とクエリ、可能であれば生データを共有しておくと一番よいです。アンケートなど能動的にデータを取りに行った場合はいつ、どこで、どのようにして実施したのかなど可能な限り詳細にアンケート方法を記載しておくとよいでしょう。アンケートは様々な理由からバイアスが発生しうるので、なるべく詳細に実施内容を書いておくと良いです。どちらの手法にせよ、他の人が同じようにデータを取得できるレベルに記載しておくことが望ましいです。

分析方法は集計以上に統計的手法を用いた場合は明記しておくとよいです。統計的手法はいくらでも嘘の結論を導くことができるのでどんな手法を選んだのか明確に記述するべきです。とはいえ、そもそもレポートの書き方がままならないレベルの人は統計的手法を使わないほうが望ましいです。理解していない技術を使うことは思わぬ失敗を招きます。必要ならば専門家と共同して行うべきでしょう。

Results and Discussion

この章では分析から得られた結果とその考察を記載します。あなたが分析から得られたデータや統計的解析結果とそれに対する考察を書きます。

結果と考察の項を書くときに最も重要なことは客観的事実と自分の考えを明確にわけて書くことです。データ分析はデータという客観的な情報を元に意思決定することを目的としています。にもかかわらず、あなたの主観と客観的情報を混ぜて書いてしまってはその価値は失われてしまうでしょう。

特にグラフの書き方はルールや作法がありますので留意すべき点でしょう。グラフを記載する際のルールはそれを守ることによってグラフを見た人が誤解をせず適切にグラフから情報を読み取れるようにするためのものです。軸の単位やラベルを書いたり説明を記述することは最低限であり、これが不足しているグラフを描くことは避けましょう。もし図や表の書き方を詳細に知りたい方は科学コミュニティにおける書き方を参考にすると良いでしょう。

統計学的手法を用いている場合はその結論を導いて良いのか適切に検討しましょう。例えば、相関関係と因果関係を見誤ることはとても多い問題です。他にも検定の結果の受け方は一癖あるので手法を理解し記述するよう気をつけるべきでしょう。これを間違うと一気にレポートの信頼性が落ちてしまいます。

また、バイアスの存在は重要です。データは常に何かしらのバイアスの影響を受けています。結論に影響がなくても影響が無いことを明記すべきです。バイアスについて留意した考察を行うことを行ったということが重要になります。

留意点

ここまでIMRAD形式をベースにレポーティングの留意点を記述しました。ここまで読んだ人の中にはこんなにたくさんの文字を書くことは非常に労力がかかり、まるで冗長な作業のように感じる方もいるでしょう。私も以前はそう思っていました。

もちろん、このような内容を網羅的に記述することは労力がかかります。実際に、ベテランは意図的にこれらのいくつかを書かないことがあります。しかし、それはケースごとの"重点"を理解した手抜きです。レポートを見る人の関係性や分析の重要度、実験の難易度などを加味した上で省略をします。

しかし、少なくとも初心者のうちはこのような省略をおこなわず、すべてを明確に書くべきだと考えます。なぜなら、このように網羅的な記述を行うことは物事を整理し言語化する力を強くしてくれるからです。大変ですが、それでも時間と労力をかけて明確に記述することを推奨します。

初めてこのようにレポートを書いたとき、とても大変で投げたくなるでしょう。大丈夫です、私もそうでした。もしよければ3ヶ月だけ我慢してみてください。きっとあなたのスキルが進化していることを体感できるでしょう。

あとがき

この記事ではデータ分析を行ったときのレポーティングについて簡単に重要な点を述べさせていただきました。

この記事をとおして、あなたのレポートが良いものになれば嬉しい限りです。

Discussion