📉

初心者もできるExcelから学ぶ統計学(1/2)

2024/07/29に公開

0. 対象となる読者

Ⅰ. 様々なデータを基本的な知識でExcelで分析してみたいと思っている方
Ⅱ. データ分析について勉強をしているが、実際にどのように活用していくのかわからない方
Ⅲ. その他Excelを用いて手を動かしながらデータ分析をしてみたい方
Ⅳ. 統計の知識を学びつつ、その概念をすぐ活用したいと思ってる方
Ⅴ. 資格「エクセル分析ベーシック(基礎レベル)」を取得したいと考えている方


1. はじめに

本記事では、2回に分けてExcelを用いて基本統計量を求める方法について解説します。
基本統計量とはデータの中心傾向や分散を表す指標のことで、データ分析の基礎となる概念です。
具体的には、「平均値」「中央値」「最頻値」「分散」「標準偏差」「四分位数」 について説明します。
以下にように2つの記事で分けて説明させていただきたいと思います。

  • 平均値、中央値、最頻値 ← 今回の記事のパート
  • 分散、標準偏差、四分位数

読者によっては知っている単語や概念も出てくると思うので、この統計量なんだっけ...と気になる部分だけ読んでいただいても構いません。

この記事で使用するExcelのバージョンは
Microsoft® Excel® for Microsoft 365 MSO (version 2406 ビルド 16.0.17726.20078) 64bit
ですが、2007年以降のExcelであれば基本的な操作は同じです。

2. 基本統計量の求め方

Ⅰ.平均値 (Average/Mean)

①平均値の意味と求め方

先ずは平均値(平均)について復習しましょう。小学校で習う算数でおなじみの概念です。
(平均値=合計÷個数)で表し、これから平均を\mu(ミュー)という記号で表すことにします。

\mu = \dfrac{x_1 +\dotsb + x_n}{n} = \dfrac{\sum_{i=1}^nx_{i}}{n}

であり、合計の値をデータの数で割ったものが平均値です。

では次に平均値という英単語に注目してみましょう。
「あれ?平均って英語でAverageなんじゃないの?どういうこと?」と思う方もいるでしょう。
しかし、既に気付いた方もいらっしゃるかもしれませんが、実は平均には英語で二つの名前が存在します。

  • AVERAGE
  • MEAN

意味は基本的に同じですが、使う場面が少し違う場合があります。

  • AVERAGEは日常生活や一般的な文脈で広く使われている傾向がある。
  • MEANは統計や数学の文脈(主に算術平均)でより正確に使われる傾向がある。

今は平均の意味を正確に使い分ける必要はありませんが、プログラム言語や状況によってはAVERAGEではなく、MEANを使う場合もあることを覚えてくださいね。

やっとAVERAGEMEANの違いが分かったけど、また「算術平均」という分からない単語が出てきました。
一体「算術平均」とはなんでしょうか。
「算術平均」とは我々が普段日常生活で使用している平均のことです。
実は平均には6種類存在していて、算術平均はその中の一つだったのです。

平均の種類

算術平均 (Arithmetic Mean): データの総和をデータの個数で割ったもの
加重平均 (Weighted Mean): 各データに重みをつけた値の総和を重みの総和で割ったもの
幾何平均 (Geometric Mean): データの積のn乗根(nはデータの個数)
調和平均 (Harmonic Mean): データの逆数の算術平均の逆数
トリム平均 (Trimmed Mean): 最小値と最大値の一定割合を除いたデータの算術平均
移動平均(Moving Average): 一定期間のデータの算術平均を連続して計算したもの

②Excelでの計算方法

Excelを用いて平均を用いる場合も基本的な考え方は同じです。

このようなデータがあるとして、合計や平均を求めてみましょう。

  • 表1.1 ある八百屋で一週間に販売された果物の個数
八百屋で販売する果物 販売された果物の個数(個)
りんご 153
みかん 63
もも 93
メロン 46
すいか 15
チェリー 11
オレンジ 37
いちご 58
合計 ??
平均 ??

この表をコピーしてExcelのA1セルにペーストすることでデータを入力せずすぐ使えます!


Excelにデータを入力完了の写真

ではデータの準備ができたら先ず合計の求めます。
ここではSUMという関数を使って合計を簡単に求めたいと思います。

SUM関数を使い、合計を求める
=SUM()関数を使い、()の中に合計したいデータを入れます。

=SUM(B2+B3+B4+B5+B6+B7+B8+B9)となっていますね。


上より簡単に合計を求められます
でも合計に全てのデータを入力するのはとても億劫ですよね。
ここで「:」を用いてB2:B9のように表現するとB2からB9までのデータを意味します。
データをドラッグするだけでもB2:B9のように入力されるので、覚えてくださいね

そうすると合計は「476」なので間違いがないかチェックしてください。

では本番の平均を求めてみましょう。


AVERAGE関数を用いて平均を求める
平均はAVERAGE関数を用いて求めます。
先のようにB2からB9までドラッグして、()の中に入れるだけで簡単に求められました。
平均は「59.5」であり、先の合計「476」を果物の種類の個数8で割ると「59.5」となり、正確に求められました!


Ⅱ.中央値 (Median)

①中央値の意味と求め方

ビジネス現場では平均値以外にも、最大値や最小値、中央値も良く用いられます。
「最大値は最小値はわかるけど中央値はなんだ?真ん中にあるデータのことか?」と思いますよね。
実はそれが正解です。
名前から分かるようにデータを小さい順に並べた時に中にある真ん中の値が中央値になります。

中央値はデータの個数によって求め方が異なります。
先ずはデータを小さい順に並べて考えてみましょう。
ex) \set{1,3,5,7,10}
データの個数が奇数の場合はそのまま真ん中のデータ(3番目)が中央値になります。
→ 中央値は5

では偶数の場合どうでしょうか。
ex) \set{2,5,7,9,11,13}
中央値は3番目の7と4番目9の間ですね。
つまり、中央値はその7と9の平均値である8になります。
→ 中央値は8

数式で表すと以下のように記述できます。

Median_{odd}=x_{(\frac{n+1}{2})}

Median_{even}=\frac{x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})}}{2}

n:データの個数

中央値の性質としては平均値と比べて「外れ値(他のデータとは大きく異なる値)」の影響を受けにくいことがあります。
では以下の例えで理解してみましょう。

②Excelでの計算方法

  • 表1.2 Zenn大学に所属している生徒たちの年間読書量
生徒たちの学籍番号 年間読書量(冊)
A 1
B 3
C 7
D 10
E 2
F 61
G 15
H 21
合計 ??
平均 ??
中央値 ??

この表をコピーしてExcelのA1セルにペーストすることでデータを入力せずすぐ使えます!


上記のSUMAVERAGE関数を用いて合計と平均を求める
今回も同じく=関数名(データの範囲)のように記述することで合計や平均を簡単に求められましたね!

では本番の中央値を求めてみましょう。
中央値は中央値の英語名であるMEDIAN関数で求めれらます。


MEDIAN関数を用いて中央値を求める
データを小さい順に表した際に\set{1,2,3,7,10,15,21,61}のように表すことができますよね。
今回の場合データの個数は8個で偶数なので中央値は4番目のデータ\set{7}と5番目のデータ\set{10}の平均である8.5になります。

ここで中央値の面白い性質が分かりますね。
中央値とは結局データの「絶対的な大きさ」ではなく、データの間の「相対的な大きさ」に影響を受けることが分かります。
先の例で考えてみましょう。
学籍番号Fの人が101冊を読んだと仮定します。
そうするとデータは\set{1,2,3,7,10,15,21,101}となり、平均値は20になりますね。
先の平均値15に比べて5上がりましたね。
しかし面白いことに中央値は8.5で何も変わってないのです。
このような性質から平均値と中央値が大きく異なる場合には「外れ値(他のデータとは大きく異なる値、今回の例では学籍番号Fのデータ)」があると考えられます。

Ⅲ.最頻値 (Mode)

①最頻値の意味と求め方

最頻値の数学の定義は以下の通りです。

X=\{x_1,x_2,...,x_n\}
Mode=arg\enspace max_{x\in{X}}\enspace f(x)
X:データ集合

数式だとよく分からないですよね。
実は最頻値も中央値と同じく、データから一番多く現れる値のことを意味します。

早速簡単な例で考えてみましょう。
\set{0,4,8,2,6,5,9,2}というデータがあるとします。
このデータは

  • 0は1個
  • 2は2個
  • 4は1個
  • 5は1個
  • 9は1個

なのでこの場合2が2個で最も多く存在する。
→ 最頻値は2

しかし、以下のような疑問が生じるかもしれません。
Q1.最頻値は必ず1つなのか。最頻値が複数存在する場合はどうなるの?
Q2.最頻値が存在しない場合はどうなる?

その回答は
A1.最頻値が複数存在可能です。
今回我々が扱う関数はMODE.SNGLであり、これは
得られた順番が最も早い値を一つ取る性質を持っています。
それに対してMODE.MULT関数も指定した範囲内で最も頻繁に出現する値を求めます。
しかし、MODE.SNGLとは異なり 「MULT」(Multiple) が示す通り、最頻値が複数存在する場合は全てを返します。
結果は配列として出力される性質を持っています。

A2.データに最頻値が存在しない場合は「#N/A」と表示されます。

②Excelでの計算方法

  • 表1.3 ある町にある飲食店の営業時間
町にあるお店の識別番号 お店の営業時間(時間)
1 8
2 7
3 7.5
4 9
5 12
6 7
7 6
8 6
9 6.5
10 9
11 10
12 8
13 8
14 9
15 10
16 8.5
合計 ??
平均 ??
中央値 ??
最頻値 ??

この表をコピーしてExcelのA1セルにペーストすることでデータを入力せずすぐ使えます!


今回も上記のSUM, AVERAGE, MEDIAN関数を用いて合計、平均、中央値を求めてみましょう

写真のように合計、平均値、中央値を求められたら正解です。
平均値と中央値にあまり大きい差がないので今回の場合には「外れ値(他のデータとは大きく異なる値)」がないと考えられますね。

では最頻値を求めてみましょう。
今回の場合最頻値はMODE.SNGL関数で求められます。

MODE.SNGL関数を用いて中央値を求める

データの中を羅列してみると以下のようになります。

  • 6時間 2個
  • 6.5時間 1個
  • 7時間 2個
  • 7.5時間 1個
  • 8時間 3個
  • 8.5時間 1個
  • 9時間 3個
  • 10時間 2個
  • 12時間 1個

となるので最頻値のところに8が表示されると正解です。

でも少し変ですよね。
8時間だけが3ヶ所ではなく9時間も3ヶ所で最頻値となっていますが、どうして8のみ表示されるのでしょう。
実は先お伝えした通りMODE.SNGLは得られた順番が最も早い値を一つだけ取るからです。
「お店の営業時間(時間)」のデータが8から始まるので8と8以外のデータが同じ個数であっても8が最頻値になります。

データが多すぎて最頻値が複数存在するのかどうかわからない場合はどうでしょう。
その時にはまずMODE.MULTを使ってみるのも良いかもしれないですね。


先のデータにMODE.MULT関数を入力した結果、最頻値が行列として出力される

MODE.MULT関数を使っても最頻値が一つである場合はしっかり1つだけ出力されるので、安心して最頻値を求めることができます。

平均値のみでは実態を正確に把握できない場合があることから、中央値と最頻値と組み合わせて実態を正確に把握することがとても大事です。

3.まとめ

1.合計を求めたい場合はSUM関数

  • =SUM(データ)

2.平均値を求めたい場合はAVERAGE関数

  • =AVERAGE(データ)
  • 平均にはMEANとAVERAGEがあり、Excelでの平均値はAVERAGEとして算術平均である
  • 平均値には6種類の平均が存在する

3.中央値を求めたい場合はMEDIAN関数

  • =MEDIAN(データ)
  • 中央値はデータを小さい順に並べた時に真ん中にある数値
  • 平均値と比べて「外れ値(他のデータとは大きく異なる値)」の影響を受けにくい

4.最頻値を求めたい場合はMODE関数

  • 最頻値とはデータから一番多く現れる値
  • 最頻値が一つの場合 : =MODE.SNGL(データ)
  • 最頻値が複数ある場合 : =MODE.MULT(データ)
  • MODE.SNGLは得られた順番が最も早い値を一つ取る
  • MODE.MULTは得られた最頻値を行列として表示させる
  • 最頻値が存在しない場合は「#N/A」と表示される

いかがでしょうか。
少しは基本統計量について理解が深まりましたか?
今回の記事では基本統計量の中「平均値」、「中央値」、「最頻値」をExcelを用いて求める方法について調べてみました。
次の記事では残りの「分散」、「標準偏差」、「四分位数」についてになります。

お疲れさまでした。

ヘッドウォータース

Discussion