【図解】統計学の2種類
ディープラーニング の前に。
ディープラーニングは「統計学」がベースとなっています。統計学は、実はいろいろな場面で使われていて、私たちの知らないところで、人類の生活を豊かにしてくれています。
統計学はディープラーニングの基礎
今回は、統計学の大枠である「記述統計と推測統計」について図解します。固い言葉は一切なくして、初心者でも理解できるようにしました。
DeepLearning の基礎を本にまとめています。手に取って頂けるととても喜びます ↓
皆さんの理解が一歩でも進むと嬉しいです。
Created by NekoAllergy
統計学の 2 分類
統計学の 2 分類
統計学では大きく、記述統計(きじゅつとうけい)と 推測統計(すいそくとうけい)の2つに分けられます。
言葉を聞いただけでは理解が難しいと思うので、具体例で考えてみます。
01 記述統計とは?
記述統計とは?
記述統計とは、データを分かりやすい形に変換して、特徴を理解するための手法のことです。データから平均値を導いたり、分散を出したりするのが、記述統計の内容です。
たとえば、学校で 5 教科のテストを受けた時を考えましょう。あなたはこのテストのために、それはもう、結構勉強したので、5 つのテスト全てにおいて、80 点以上をとる事ができました。めっちゃ嬉しいので、いち早くみんなに自慢してやりたいです。
クラスのデータを集計
しかし、テストが簡単で、みんな 90 点以上をとっている可能性もあります。同じテストを受けた他の人たちと比べて、80 点のあなたは、本当に上位の点数なのでしょうか?
自分の立ち位置を把握するために、クラスのみんなの点数を、データとして集計してみました。ところが、たくさんの数字が並んでいるだけでは、単純に比較できません。
基準を出そう
平均値を求める
こんなときよく使うのが、平均値をだす方法です。平均値はみなさんも馴染みがあるでしょう。すべてのデータの数値を足して、データの数で割ったら完了です。たったこれだけの計算で、平均値という 1 つの便利な数値を出す事ができました。
この 1 つの数値をもって、みんなの賢さを定量的に測る事ができます。このように、分かりにくいたくさんのデータを、分かりやすい形に変換することを、記述統計と呼びます。 今回の例では、全体の特徴を理解するために、平均値を使いました。平均値は記述統計の 1 つです。
クラスの平均値と自分の点数を見比べてみると、ある教科では平均以上ですが、ある教科では平均以下という事がわかりました。自慢するのは、また今度にしておきましょう。
グラフ化でより分かりやすく
グラフ化も記述統計の 1 つ
今度は、全体像を理解するために、データをグラフにして見てみましょう。すると、教科によって、バラつきがかなり違うことが分かります。このように、グラフに変換するという行為も、記述統計にあたります。 分かりにくいデータを変換して、特徴を掴みやすい形に直しているものは、全て記述統計にあたります。
データを元に, 分かりやすい指標や基準を生み出す
記述統計は、平均値を出したり、グラフで可視化したりする他にも、たくさんあります。中央値、最頻値、分散、標準偏差、共分散、相関係数、など、データの特徴を掴むための数値はたくさんあります。
言葉を聞いただけでは難しそうに感じるかもしれませんが、データの特徴を分かりやすい数値にしているだけです。記述統計とは、「データを元に分かりやすい指標や基準を生み出す手法」とも言えるでしょう。 たくさんの指標や基準を生み出せると、それによって正しく議論を進める事ができます。
02 推測統計とは?
推測統計とは?
推測統計では、一部のデータから全体のデータを予測したり、あるいは、現在のデータから未来のデータを予測したりする事ができます。 推測統計は、記述統計の内容をもとにしています。記述統計の内容は、あくまで推測統計をやるための土台です。
推測統計の重要ワード 2 つ
推測統計には、推定(すいてい)と検定(けんてい)という 2 つの手法があります。推定と検定は、最も重要で、最も実用的で、最もよく使う手法です。今まで記述統計で学んだ知識が伏線回収のようにどんどん出てきます。
この 2 つを行うことが、推測統計のゴールと言っても良いでしょう。
推定(すいてい)って?
推定とは?
推定とは、一部のサンプルから全体のデータを推測する手法のことです。 推定を使うと、サンプルの平均から全体の平均を求めたり、サンプルの分散から全体の分散を求めたりすることができます。
たとえば、テレビの視聴率や内閣支持率などで、推定の考え方が使われています。日本国民 1 億人、全員にアンケートをとることは、とても難しいので、1000 人程度の少ないサンプルの結果から全体のデータを予測する、という考え方で成り立っています。
検定(けんてい)って?
検定とは?
検定とは、「それってこうなんじゃない?」という仮説を立てて、それが本当に正しいかを判定する手法です。 たとえば、「東京で 2 週間連続で雪が降った」という事実があったとします。この事実が、「そんなこと普通に起きることだよ」となるのか「いや、これは滅多に起きない。だから偶然起こったものだ」となるのかを数値で出すことができます。偶然起こったのかそうでないかを、主観で判断せず、客観的な数値によって判断することができるので、とても便利な手法です。
推定と検定はどちらも、見えていない裏側のデータを予測する手法なので、推測統計に含まれます。統計的に正しい計算をする事で、高い精度で裏側のデータを予測する事ができます。
このように、推測統計では、一部のデータから全体のデータを予測したり、あるいは、現在のデータから未来のデータを予測したりする事ができます。最も重要で、最も実用的で、最もよく使う手法です。
学習の進め方
統計学を学ぶ際には、1. 記述統計を学んでから、2. 推測統計を学ぶのが、最も効率の良い学習方法です。記述統計でデータの特徴を導き出せるようになってから、推測統計で実用的なスキルを身につけましょう。
まとめ
統計学の 2 分類
統計学では大きく、記述統計(きじゅつとうけい)と推測統計(すいそくとうけい)の2つに分けられます。
皆さんの理解が一歩でも進んだのなら嬉しいです。
機械学習をもっと詳しく
統計学が分かると、機械学習や DeepLearning の内容がスムーズに入ってきます。
DeepLearning の基礎を本にまとめています。手に取って頂けるととても喜びます ↓
ねこアレルギーの AI
YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
Created by NekoAllergy
Discussion