📊

【統計学】二項分布の式を読む

に公開
\ {}_n \mathrm{C}_k \cdot p^k \cdot (1-p)^{n-k}

各々の式が何を指しているのかはわかるのだが、全体としてどうしてこうするのか、結局なんなのかが自分で概説できない。

今回は1つずつ分解して理解した後、最終的にひとまとめにして説明することを目指す。

まず、分布とは

分布は Distribution だから、ある入れ物に何個分配される(割り当てられる)かというのをイメージの基本とする。

例えばテストの点数を例とすると、記述統計では、分布には「80点台には15人」などの具体的な数字が入る。

基本イメージを押さえたところでいったん分布は横においておき、確率変数に話を移す。

確率変数とは

  • やった(試行:Experiment)結果としておこる結果(事象:Event)を数値に対応させる関数のこと
  • 確率変数は X などの大文字で表記される

簡単に言うと、確率変数は「試行した結果を数値化する道具」というイメージ。

このあと二項分布に触れるが、確率変数自体は、単に試行の結果を数値に変換する関数(写像)であって、結果が2つでなければいけないという制限はない。

次の章で二項分布の話をするが、結論を先に言うと二項分布は「決まった回数の試行の中で、特定の成功回数が起こる確率を計算する」数学的なモデルである。

二項分布

二項分布の仕様は下記である。

  • ベルヌーイ試行:試行の結果が「成功」か「失敗」の二通りである(二項)
  • 独立:各試行が他の試行の結果に影響を与えない
  • 確率が一定:「成功」の確率 p が、どの試行においても一定
  • 試行回数が固定:試行の回数 n が固定されている

つまり、成功か失敗しかない回数限定のゲームみたいなイメージ。

P(X=k) は、入力 k に対して確率という出力を与える関数(マシン)である。

  • 入力: k (成功回数)
  • 出力: P(X=k) (その成功回数が起こる確率)

そのマシンの機構が、

\ {}_n \mathrm{C}_k \cdot p^k \cdot (1-p)^{n-k}

である。

上記の式は、二項分布の公式(二項分布の確率関数)という。

  • 「二項分布の公式」という言い方は、実用的な呼び方
  • 「二項分布の確率関数」という言い方は、数学的な文脈で使われ、入力 k に対して確率 P(k) を一意に定める関数という性質

公式の仕組み

この公式は、2つの部分で構成されている。

p^k \cdot (1-p)^{n-k}

これは、(成功の確率の回数)×(失敗の確率の回数)を出すものである。

たとえば、S=成功F=失敗とするとして

P(S,S,F,S,F)=0.8×0.8×0.2×0.8×0.2

積は順番を入れ替えてもよいので、これをまとめると、

P(S,S,F,S,F)=(0.8×0.8×0.8)×(0.2×0.2)=0.8³×0.2²

つまり、成功の確率の回数と、失敗の確率の回数があり、これは全試行の中での配分は変わらない。

しかし、S,S,F,S,F というのは、成功3回失敗2回という結果の1つのパターンでしかない。ところが成功3回失敗2回には、S,F,S,S,FF,S,S,F,Sなど、同じ「成功3回失敗2回」でも並び順が違うパターンがたくさんある。

これら全パターンの数を出さないと、「成功3回失敗2回」という結果が起こる確率は計算できない。

その「成功3回失敗2回」という成否の並びが全部で何通りあるかを出すのが、

{}_n \mathrm{C}_k

である。

n 回の試行の中で、「成功 k 回、失敗 n-k 回」は確定の情報としたとき、その成否の並びが、全部で何通りあるかを表す。

この公式の役割は、さっきの例で言えば「成功3回失敗2回」つまり成否すべての並び順を全部考慮することである。

ここまで出てきた二つの式をまとめると、

一つの成否の並びの確率は、各パターン

p^k (1-p)^{n-k}

に対し、すべての並びを出す

{}_n \mathrm{C}_k

を掛ける。

すると、ある成功回数が起こる確率がわかるマシンとなる。

確率分布、そして二項分布まとめ

冒頭に説明した分布は、経験分布という実際に存在するデータを振り分けて作り上げる、具体的な分布。

それ以外にも、二項分布などの「確率分布」というものが存在する。これは、分布を数学的な確率の式で表したものである。

確率変数 X がある値 k をとると、チェック係が見て「ああ、この値が起こる確率はこれですね」とパーセンテージを印刷したレシートを出してくれるのが確率分布のイメージである。

先程の二項分布という確率分布であれば、試行する回数(n)と成功の確率(p)をあらかじめセットしたマシンの中に、知りたい成功回数(k)を投入すると、すべてのパターンを論理的に計算して、確率を印刷したレシートを出してくれる予測システム、とイメージできる。

Discussion