🔖

意外と間違えやすい"平均"の話

2024/09/04に公開

株式会社ウェイブでコミック配信サイト ComicFesta のエンジニアをしている肥沼です。

今回は前からまとめたいと思っていた相加平均と相乗平均について記事にしました。
プログラミングなどの技術の話では無いですが、まとめておきます。

ちなみに、この記事では、私の会社の運営するコミックサイトにちなんで、コミック関連のデータで例を示します

"平均"って

平均と聞いて想像するのはどんな平均でしょうか?

個数で割る平均を思い浮かべる人もいれば、人によってはRMSを思い浮かべる人もいるんじゃないでしょうか?

実は"平均"と言って実は様々な種類があり、標本の特性によって適切な平均を使う必要があります。

色々ある平均

  • 相加平均 (算術平均、いわゆる平均)
  • 相乗平均 (幾何平均)
  • 調和平均
  • 2乗平均平方根
  • etc ...

適切な平均を使わないと間違った結果になることがあるので気をつけないといけないです。

この記事では、相加平均(いわゆる平均)と相乗平均について式を使って解説してみます。
読んだあとに、標本によって適切な平均があるんだなぁという実感が湧いているといいなと思います。

相加平均

相加平均は一般的によく使われる「平均」です。算術平均とも呼ばれます。
相加平均は

\frac{合計}{個数}

で計算できる平均値です。よく使う平均ですね。

どんな時に使用されるのかというと、各データを「平均値」に全て置き換えたとしても、総和(合計、全ての足し算の結果)が変わらないデータような場合、相加平均を使うのが適切です。

例として、1-4月のコミックの売り上げの平均を考えてみると、

コミックの売り上げ 平均
1 50 70
2 75 70
3 65 70
4 90 70
合計 280 280

このようになります。
全ての月で同じ売り上げ70であった考えるのが相加平均です。

なぜ総和に着目したのが相加平均になるのか(数式をつかって理解する)

上に引き続き

今年の毎月のコミックの売上と売り上げ合計

を例に考えてみます。

ここで知りたいことを、平均してどのくらいのコミックの売り上げで今年の売り上げになったのかとします。言い換えると、仮に毎月の売上が全て同じだったとして今年の売り上げになった場合、それはいくつなのか知りたいということになります。

このような関係を数式としては表現するとこのような感じになります。

a_1+a_2+a_3+a_4+\ldots=\mu+\mu+\mu+\mu+\ldots\

ここで a_1, a_2, ... を「各月のコミックの売り上げ」、\muを「仮に毎月の売上が全て同じだった場合の毎月のコミック」としています。1年間は12ヶ月あるので、右辺は次のように変形できます。

a_1+a_2+a_3+a_4+\ldots=12\mu

両辺を変形すると

\mu=\frac{a_1+a_2+a_3+a_4+\ldots}{12}

となり、よくみる式 「合計/個数」になってる、つまり「仮に毎月の売上が全て同じだった場合の毎月のコミック売り上げ」が相加平均そのものであることがわかります。

相乗平均

相乗平均は幾何平均とも呼ばれますが、あまり聞きなれない平均かもしれません。
相乗平均は次の式で計算できます。

\sqrt[n]{a_1a_2a_3...}

\sqrt[n]{x}n乗根といい、エクセルやスプレッドシートでPOW(x, 1/n)で使用することができます。

総乗が変わらないデータに関して相乗平均を使うのが適切です。

総乗とは掛け算を繰り返し行う操作のことです。

例として、1-4月のコミックの売り上げの増加率の平均を考えてみると、

コミックの売り上げ 前月からの増加率
12 50 -
1 50 1
2 75 1.5
3 65 0.87
4 90 1.38

このようになります。
ここで、前月からの増加率の平均はこのように計算できます。

\sqrt[4]{1\times1.5\times0.87\times1.28}=1.158\ldots

つまり毎月約16%の売り上げ増だったことになります。
検算してみると、12月から1.158を4回かけると

50\times1.216\times1.216\times1.216=89.9\ldots

となり、確かに4月の売り上げになります。

ちなみに、ここで相加平均を使うと前月からの増加率の平均は1.19となり、4月の売り上げは

50\times1.19\times1.19\times1.19\times1.19=100.2\ldots

となり、結構ズレてしまうことがわかります。

なお一般的に、相加平均と相乗平均の間には次のような関係があります。

相加平均 \geq 相乗平均

なぜ総乗に着目したのが相乗平均になるのか(数式をつかって理解する)

上に引き続き

今年の毎月のコミックの売上の増加率

を例に考えてみます。

ここで知りたいのは、平均して毎月どのくらいの増加率で増えて12月の売り上げになったのかとします。言い換えると、仮に毎月の増加率が同で増えて12月の売り上げになった場合、それはいくつなのかを知りたいということです。

まず、i月のコミックの売り上げをa_i, 増加率をr_iとします。
このとき、i月のコミックの売り上げはr_iと前の月のコミックの売り上げa_{i-1}をつかって、次のように計算できます。

a_i = r_i a_{i-1}

12月のコミックの売り上げは、11月の売り上げを使ってこのように計算できます。

a_{12} = r_{12} a_{11}

同様に、11月のコミックの売り上げはこのように計算できるので、

a_{11} = r_{11} a_{10}

12月のコミックの売り上げは次のようになります。

a_{12} = r_{12} r_{11} a_{10}

これを繰り返し計算すれば、

a_{12} = r_{12} r_{11} r_{10} \ldots r_{1} a_{0}
\frac{a_{12}}{a_{0}} = r_{12} r_{11} r_{10} \ldots r_{1}

となります。ただし、a_{0}は去年の12月のコミックの売り上げです。
この式から、12月の売り上げを計算するのに総乗が使われることがわかります。このようになる場合、相乗平均が適しています。

では仮に毎月の増加率がr_mで一律だったとした場合、このような式を立てることが出来ます。

\frac{a_{12}}{a_{0}} = r_{12} \ldots r_{1} = r_m \ldots r_m

ここで知りたいのはr_mですので、結局下記のようになります。

r_m = \sqrt[12]{r_{12} \ldots r_{1}}

この式は上記に示した相乗平均そのものとなります。

最後に

相加平均と相乗平均についてなんとなく理解できたでしょうか?

ここで紹介した平均以外にも色々な平均があるのでぜひ調べて活用できるといいと思います。

wwwave's Techblog

Discussion