【統計学】二項分布の式を読む
各々の式が何を指しているのかはわかるのだが、全体としてどうしてこうするのか、結局なんなのかが自分で概説できない。
今回は1つずつ分解して理解した後、最終的にひとまとめにして説明することを目指す。
まず、分布とは
分布は Distribution だから、ある入れ物に何個分配される(割り当てられる)かというのをイメージの基本とする。
例えばテストの点数を例とすると、記述統計では、分布には「80点台には15人」などの具体的な数字が入る。
基本イメージを押さえたところでいったん分布は横においておき、確率変数に話を移す。
確率変数とは
- やった(試行:Experiment)結果としておこる結果(事象:Event)を数値に対応させる関数のこと
- 確率変数は
などの大文字で表記されるX
簡単に言うと、確率変数は「試行した結果を数値化する道具」というイメージ。
このあと二項分布に触れるが、確率変数自体は、単に試行の結果を数値に変換する関数(写像)であって、結果が2つでなければいけないという制限はない。
次の章で二項分布の話をするが、結論を先に言うと二項分布は「決まった回数の試行の中で、特定の成功回数が起こる確率を計算する」数学的なモデルである。
二項分布
二項分布の仕様は下記である。
- ベルヌーイ試行:試行の結果が「成功」か「失敗」の二通りである(二項)
- 独立:各試行が他の試行の結果に影響を与えない
- 確率が一定:「成功」の確率
が、どの試行においても一定p - 試行回数が固定:試行の回数
が固定されているn
つまり、成功か失敗しかない回数限定のゲームみたいなイメージ。
- 入力:
(成功回数)k - 出力:
(その成功回数が起こる確率)P(X=k)
そのマシンの機構が、
である。
上記の式は、二項分布の公式(二項分布の確率関数)という。
- 「二項分布の公式」という言い方は、実用的な呼び方
- 「二項分布の確率関数」という言い方は、数学的な文脈で使われ、入力
に対して確率k を一意に定める関数という性質P(k)
公式の仕組み
この公式は、2つの部分で構成されている。
これは、
たとえば、
積は順番を入れ替えてもよいので、これをまとめると、
つまり、成功の確率の回数と、失敗の確率の回数があり、これは全試行の中での配分は変わらない。
しかし、
これら全パターンの数を出さないと、「成功3回失敗2回」という結果が起こる確率は計算できない。
その「成功3回失敗2回」という成否の並びが全部で何通りあるかを出すのが、
である。
この公式の役割は、さっきの例で言えば「成功3回失敗2回」つまり成否すべての並び順を全部考慮することである。
ここまで出てきた二つの式をまとめると、
一つの成否の並びの確率は、各パターン
に対し、すべての並びを出す
を掛ける。
すると、ある成功回数が起こる確率がわかるマシンとなる。
確率分布、そして二項分布まとめ
冒頭に説明した分布は、経験分布という実際に存在するデータを振り分けて作り上げる、具体的な分布。
それ以外にも、二項分布などの「確率分布」というものが存在する。これは、分布を数学的な確率の式で表したものである。
確率変数
先程の二項分布という確率分布であれば、試行する回数(
Discussion