初心者もできるExcelから学ぶ統計学(2/2)
0. 対象となる読者
Ⅰ. 様々なデータを基本的な知識でExcelで分析してみたいと思っている方
Ⅱ. データ分析について勉強をしているが、実際にどのように活用していくのかわからない方
Ⅲ. その他Excelを用いて手を動かしながらデータ分析をしてみたい方
Ⅳ. 統計の知識を学びつつ、その概念をすぐ活用したいと思ってる方
Ⅴ. 資格「エクセル分析ベーシック(基礎レベル)」を取得したいと考えている方
Ⅵ. 前回の記事「初心者もできるExcelから学ぶ統計学(1/2)」を読んだ読者の方 前回の記事はこちら
1. はじめに
本記事では、2回に分けてExcelを用いて基本統計量を求める方法について解説します。
基本統計量とはデータの中心傾向や分散を表す指標のことで、データ分析の基礎となる概念です。
具体的には、「平均値」、「中央値」、「最頻値」、「分散」、「標準偏差」、「四分位数」 について説明します。
以下にように2つの記事で分けて説明させていただきたいと思います。
- 平均値、中央値、最頻値
- 分散、標準偏差、四分位数 ← 今回の記事のパート
読者によっては知っている単語や概念も出てくると思うので、この統計量なんだっけ...と気になる部分だけ読んでいただいても構いません。
この記事で使用するExcelのバージョンは
Microsoft® Excel® for Microsoft 365 MSO (version 2406 ビルド 16.0.17726.20078) 64bit
ですが、2007年以降のExcelであれば基本的な操作は同じです。
2. 基本統計量の求め方
Ⅰ.分散 (Variance)
①分散の意味と求め方
分散とはなんでしょうか。「高校数学で聞いた覚えがあるぞ!」という方もいるでしょう。
分散は標準偏差と関連深いものであり、標準偏差と共に基本統計量として大事な役割を果たしています。
では改めて分散について復習してみましょう。
分散は一言で 「データのばらつきを表す指標」 です。英語では「Variance」で表記し、その略を使ってこれから分散を
では具体的に数式としてどのように表現するのでしょうか。
であり、平均値を
式をより分かりやすく3つの段階に分けて考えてみましょう。
- 個々のデータのずれを計算する
:x - {\mu}
→ 実はこれが 「偏差」 の定義です!
偏差:それぞれのデータとデータ全体の平均値との差 -
偏差を二乗する
:(x_i - {\mu})^2 - その合計をデータの個数で割ることで、平均値を計算する
:\dfrac{{\sum_{i=1}^n(x_i - {\mu}})^2}{n}
ここであれ、2番目からなんかおかしいぞ?と感じた方がいるかもしれません。
「なんで普通に偏差の合計を求めておいて急に二乗したり、その平均を求めるんだよ」ってなりますよね。
ただの偏差の平均を求めたらダメなんでしょうか。
その理由はばらつきの性質にあります。
簡単な例で理解してみましょう。
ここに
このデータは
では先程の偏差を二乗せず合計してみるとどうなるでしょうか。
あれれ?ばらつきは
これじゃ全ての値にばらつきがなく、
それに対して分散はどうでしょうか。
二乗しただけなのになぜこのようになったのでしょうか。
その理由は 偏差は +,-への 「方向性」 を持っていて、偏差を二乗することで方向性をなくし、「大きさ」 に変換したからです。
簡単に理系的に考えるとベクトルからスカラーになったとも言えますね。
だから
まとめると以上のことから考えると分散は「平均値を基準に値が大きいほどデータのばらつきが大きく、小さいほどばらつきが小さいことを示す指標」という性質を持っていることが分かります。
では先ず、複雑な式ではなくExcelを用いて分散を理解してみましょう。
②Excelでの計算方法
このようなデータがあるとして、前回の記事で学んだものを活かして基本統計量を求めてみましょう。
- 表2.1 あるYoutuberの1年間の購読者数増加分
月 | 購読者数(人) |
---|---|
1月 | 800 |
2月 | 1200 |
3月 | 1600 |
4月 | 500 |
5月 | 900 |
6月 | 700 |
7月 | 1000 |
8月 | 600 |
9月 | 1400 |
10月 | 1300 |
11月 | 1500 |
12月 | 800 |
合計 | ?? |
平均 | ?? |
中央値 | ?? |
最頻値 | ?? |
分散 | ?? |
標準偏差 | ?? |
この表をコピーしてExcelのA1セルにペーストすることでデータを入力せずすぐ使えます!
Excelにデータを入力し、様々な関数を用いて基本統計量を求める
前回の記事で学んだSUM関数
, AVERAGE関数
, MEDIAN関数
, MODE関数
を用いて簡単に求められました!
上の写真の値と比較して自分が求めた基本統計量が正確に求められたのか確認してくださいね。
では次は分散を求めてみましょう。
VAR.P関数
を使い、分散を求める
セルに=VAR.P()
を入力し、()の中に合計したいデータを入れます。今回の場合はB2:B13になりますね。
VAR.Pにより分散が求められました
そうすると分散は「
Excelのバージョンによって小数点以下が違う場合がありますが、
かなり大きい値でどういうことかまだわからないですが、ここで一旦説明は置いといて標準偏差を求めた後二つの値を比較しながら説明したいと思います。
Ⅱ.標準偏差 (Standard Deviation[SD])
①標準偏差の意味と求め方
では分散という概念を学ぶときに必ずペアとして一緒に学ぶことが多い(その逆とも言えますが)標準偏差について理解してみましょう。
先程分散を学ぶ際にも関連深いという話がありましたが、なぜ分散と一緒に学ぶことが多く、いつもペアとして扱うでしょうか。
その理由は 「分散は標準偏差の二乗」 であり、言い方を変えれば 「標準偏差は分散の平方根」 であるからです。
数式で表すと、先程の分散
ではなんで標準偏差って必要でしょうか。
「そもそもばらつきの大きさは分散で分かったし、もう十分じゃないか」と考えたことはありませんか?
分散の平方根であるだけの標準偏差のメリットがわからなくておかしくないですよね。
(実は統計学では特定の数学的利点や理論的背景によって標準偏差より分散を求めることが多いですが)
にもかかわらず標準偏差が必要な理由は以下の2つです。
1.解釈のしやすさ
2.比較のしやすさ
先ず1.解釈のしやすさについてです。
実は分散の中で我々が気付かなかったところがあります。
それは 「単位」も二乗になる ことです。
偏差を二乗した分、単位も二乗になってしまい
何かを計算したり解釈する際には単位を合わせるのが一般的であることを理由にビジネス現場では分散より標準偏差を使うことが多いです。
次の2.比較のしやすさについてです。
分散って偏差を二乗しちゃう分、値が大きくなりがちです。
先の例の場合はデータの数が少なく、値が小さくて違いがないように見えますが、データの数や値が大きくなるにつれ分散が大きくなります。
このようなことから分散ではなく標準偏差としてばらつきを比較することもあります。
ではExcelを用いて標準偏差を求めてみましょう。
②Excelでの計算方法
表に関しては先程の表2.1を再利用しましょう。
STDEV.P関数
を使い、標準偏差を求める
分散と同じくセルに=STDEV.P()
を入力し、()の中に合計したいデータを入れます。
そうすると標準偏差は「
Excelを使わず直接分散の平方根を求めてみると
分散を求めて、ルートを付ける必要なく、STDEV.P
という関数で標準偏差だけを求めることもできるのです。
Ⅲ.四分位数 (Quartiles/Quartile Points)
①四分位数の意味と求め方
本記事で紹介する最後の基本統計量、四分位数 (Quartiles) とはなんでしょうか。
これから出てくる
言葉だけではよく分からないので図と共に例を挙げてもう少し詳しくその意味を考えてみましょう。
第1四分位数 (
第2四分位数 (
第3四分位数 (
以下の2つの単純なデータセットがあると仮定してみましょう。
1.データの数が奇数の場合
データセットを小さい順に並べ、その中で特定の割合のデータが存在する位置を表すことでデータの分布や集中具合を簡単に理解できるので小さい順に並び替えると
中央値とはデータを小さい順に並べた時に真ん中にあるデータのことなので
ここで少し考えてみると中央値って全データの
なので先程の説明や図の定義によると、中央値=第2四分位数(Q2) になるのです。
第1四分位数(
難しく考えることなく、
2.データの数が偶数の場合
このデータセットも先のように小さい順に並び替えると
第1四分位数(
第1四分位数(
そうすると、第3四分位数も(
以上のことをまとめて式で表現すると
1.第1四分位数 (
2.第2四分位数 (
3.第3四分位数 (
と簡単にまとめることができます。
中央値の性質から四分位数も データ間の位置にある場合は、その位置にある2つのデータの平均を取ることを忘れないでください。
では最後に四分位数はどのような統計学的意義を持っていて、どうして我々に必要でしょうか。
実は四分位数はデータのばらつきを理解するのに役立ちます。
四分位範囲:
四分位偏差:
例えば、
また、IQRを使って外れ値(極端に離れた値)を検出することもできます。
四分位偏差については四分位範囲の半分で四分位範囲と同じく、中心付近のデータがどのくらい散らばっているかの目安として使えるのです。
②Excelでの計算方法
- 表2.3 あるクラスの数学テスト結果
生徒の番号 | 数学テストの点数 |
---|---|
1 | 38 |
2 | 98 |
3 | 72 |
4 | 46 |
5 | 49 |
6 | 81 |
7 | 20 |
8 | 84 |
9 | 97 |
10 | 54 |
11 | 67 |
12 | 35 |
13 | 80 |
14 | 83 |
15 | 68 |
16 | 45 |
最小値 | ?? |
Q1:第1四分位数 | ?? |
Q2:第2四分位数(中央値) | ?? |
Q3:第3四分位数 | ?? |
最大値 | ?? |
今までのようにこの表をコピーしてExcelのA1セルにペーストすることでデータを入力せずすぐ使えます!
今回はQUARTILE.INC
という関数を用いて四分位数を求めてみましょう
今回のQUARTILE.INC関数
は他の関数と違い、()の中に範囲だけを入力しても値がでません。
上の画像の右上にある戻り値を指定する必要があります。
QUARTILE.INC関数
で戻り値とは
最小値(
画像の右上を参考にすると0は最小値、1は第1四分位数、2は中位数(中央値)、3は第3四分位数、4は最大値になることが分かります。
では直接求めてみましょう。
QUARTILE.INC
を用いて戻り値を入力して四分位数を求める
上の画像のように値が求められたら正解です!
これで全てが終わりました!めでたしめでたし!
.
.
.
なのでしょうか?
直接手で検証してみましょう。
先程の表を小さい順にしてみると
先ずは中央値から求めてみましょう。
データの数が偶数の16個なので
8番目
では第1四分位数はどうでしょうか。
前のデータの半分
第3四分位数も同様で後のデータの半分
でも少し変ですよね。
Excelで求めた
一体どういうことでしょうか。
その理由は四分位数の計算の仕方が違うからです。
我々は今まで四分位数を求める際にデータの個数に注目し、データの個数が偶数である場合にはその平均を取って計算しました。
このような計算の仕方を 「ヒンジ」 と言います。
このヒンジは手計算でも簡単に計算できる簡易的な定義ですね。
ではExcelで使われていた 「パーセンタイル」 という計算の仕方はどうでしょうか。
実はこの 「パーセンタイル」の四分位数が、一般的な四分位数の定義 になります。
パーセンタイルはデータの幅を厳密に4等分して、内分点を求める要領で四分位数を求めていきます。
先の例で考えるとデータの数が16個でしたよね。これはデータの幅は15ということと同じですね。
パーセンタイルの求め方を視覚化した概念図
ということでデータの幅である15を4で分けます。
そうすると
最初のデータが
つまり4.75番目のデータが第1四分位数になり、8.5番目のデータが第2四分位数(中央値)、そして12.25番目のデータが第3四分位数になります。
第2四分位数や第3四分位数も同様に計算すると
3.まとめ
0.偏差
- 偏差は各データから平均を引くことでデータのずれを表す
1.母集団の分散を求めたい場合ははVAR.P関数
- =VAR.P(データ)
- 分散は標準偏差の二乗
- ばらつきを表す指標
2.母集団の標準偏差を求めたい場合はSTDEV.P関数
- =STDEV.P(データ)
- 標準偏差は分散の平方根
- 分散に比べて解釈や比較しやすい
3.四分位数を求めたい場合はQUARTILE.INC関数
- =QUARTILE.INC(データ,戻り値)
-
:最小値Q_0 -
:第1四分位数(下位25%)Q_1 -
:第2四分位数(中央値)Q_2 -
:第3四分位数(上位25%)Q_3 -
:最大値Q_4 - ヒンジ:データセットの特定の位置にあるデータ値がそのまま四分位数になる
- パーセンタイル:データの分布全体に基づいて線形補間が行われるため、四分位数の位置が必ずしもデータの中間にあるとは限らない
- 四分位数を求める際には「パーセンタイル」の概念を用いて計算するのが一般的
いかがでしょうか。
前回の記事よりかなり難しくなっているところが多くありますが、読者の対象を高校生以上の大人の方々にしているので昔学んだ内容を復習しつつ、誤解しやすいポイントや疑問に思いやすいところを中心に執筆しました。
この記事を通じて少しは基本統計量を理解し「面白い」、「難しくない」イメージを持っていただけたらなと思います。
次の記事では前回の記事で軽く説明した「平均の種類や定義」について学んでみましょう。
その他の「分散に対する深い理解」や「母集団と標本」についてもお楽しみに。
お疲れさまでした。
Discussion