【図解】統計学の3つの代表値(平均値/中央値/最頻値)
はじめに
代表値って?
近年、AI技術の発展に伴って、統計学の重要性が再注目されています。
今回は、統計学の基本である「代表値(だいひょうち)」について紹介します。代表値は、統計学ではとても重要で基本的な考え方です。
データを端的に表すための代表値について、基本を押さえましょう。
DeepLearning の基礎を本にまとめています。手に取って頂けるととても喜びます ↓
皆さんの理解が一歩でも進むと嬉しいです。
Created by NekoAllergy
代表値って?
代表値とは?
代表値とは、データの特徴を説明するために使う値です。代表値を使うことで、たくさんのデータを1つの数値で表すことができます。これにより、膨大なデータの特徴を簡単に掴む事ができます。
統計学では、主に3種類の代表値を使います。
- 平均値(へいきんち)
- 中央値(ちゅうおうち)
- 最頻値(さいひんち)
3種類の代表値
これら3つの代表値には、それぞれ特徴があり、それぞれにメリットがあります。代表値を適切に使い分ける事で、データの特徴を正しく評価する事ができます。
ひとつずつ紹介します。
1. 平均値とは?
平均値のイメージ
誰もが必ず聞いた事がある、もっとも有名な代表値です。
たとえば、「Googleに勤める人の年収ってどのくらい?」と聞かれた場合には、普通は平均年収を答える事が多いでしょう。個人の年収にはバラツキがあるので、それぞれの年収を聞くよりも平均値を聞く方が、遥かに信頼できます。この場合の平均という値はまさに代表値です。データの特徴を1つの数値を使って、端的に表す事ができます。
平均値のデメリット
ただ、平均値にはデメリットもあります。それは、外れ値の影響を大きく受けることです。たとえば、年収500万円, 年収500万円, 年収1億円
という3人の年収の平均値は、3,666万円
となってしまいます。年収1億円
という1人がいるだけで、平均値がかなり大きな値になってしまう事がわかると思います。これでは、このデータの特徴を表している代表値とは言いにくいです。
年収や資産のように、バラツキが大きいデータ(上には上があるようなデータ)では平均値より中央値を使うのがいいでしょう。
2. 中央値とは?
中央値のイメージ
中央値もよく使われる代表値の1つです。
たとえば、10, 10, 10, 20, 30, 40, 40, 50, 50
という9つのデータがあったとき、小さい方から順に数えて、ちょうど真ん中の5番目にある30
が、中央値です。
また、年収500万円, 年収500万円, 年収1億円
の3人の年収の中央値は、真ん中の500万円
です。このように、もし外れ値があったとしても、中央値ではあまり影響を受けません。そのため、より感覚に近い値を導くことができます。これは平均値と比べて優れている点です。
したがって、年収のようにバラツキが大きいデータを扱う場合は、代表値として中央値を使った方が良いでしょう。その方が、データの特徴をより正確に掴むことができます。
中央値のデメリット
中央値は、一度小さい順に並べるという処理が必要なので、計算量が多くなってしまいます。その分、平均値などと比べると、時間がかかってしまうこともあります。
いずれにせよ、「データに合わせた適切な代表値を使う」という考えで進めましょう。
3. 最頻値とは
最頻値のイメージ
そのデータで最も多く(頻繁に)出てくる値の事を指します。平均値や中央値ほど使いませんが、最頻値も代表値の1つです。
たとえばデータ内で、ある値に極端に集中しているような場合には、平均値や中央値よりも、最頻値を代表値として用いるのが適している場合もあります。
さっき中央値の説明で使った10, 10, 10, 20, 30, 40, 40, 50, 50
というデータの場合は、一番よく出てくる10
が最頻値です。
まとめ
今回は、統計学の基本である「代表値」について紹介しました。
代表値とは、データの特徴を説明するために使う値です。たくさんのデータを1つの数値で表すことで、データの特徴を簡単に掴む事ができます。
代表値には3種類あります。
- 平均値(へいきんち) : データの重心でありバランスが取れた値
- 中央値(ちゅうおうち): 並べたときの真ん中の値
- 最頻値(さいひんち) : データの中で1番よく出てくる値
それぞれに特徴やメリットがあります。代表値をデータに合わせて適切に使い分ける事で、データの特徴を正しく評価しましょう。
補足:偏差(へんさ)って?
偏差(へんさ)って?
偏差(へんさ)とは、各データから平均値を引いた値のことです。
たとえば、10, 20, 30, 40, 50
という5つのデータがあったときを考えましょう。このデータの平均値は30です。各データから平均値の30を引くと、-20, -10, 0, 10, 20
となります。この値を偏差と呼びます。
偏差は、平均値を基準としたときの平均からの距離といっても良いでしょう。偏差は今後のレクチャーでめちゃくちゃ出てきます。少しずつ覚えて理解を深めましょう。
補足:3種類の平均値
3種類の平均値
平均値はさらに3つの種類があります。
- 算術平均(さんじゅつ)
- 幾何平均(きか)
- 調和平均(ちょうわ)
もっともよく使うのは算術平均です。普通に「平均」と言ったら算術平均のことを指します。幾何平均や調和平均にもそれぞれの役割があるので、興味がある方は調べてみてください。
機械学習をもっと詳しく
統計学が分かると、機械学習や DeepLearning の内容がスムーズに入ってきます。
DeepLearning の基礎を本にまとめています。手に取って頂けるととても喜びます ↓
ねこアレルギーの AI
YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
Created by NekoAllergy
Discussion