📖

中心極限定理(CLT)の完全証明その1: 直感的説明

に公開

このシリーズの説明

Abstract

中心極限定理(CLT)の意味と直感的説明を記す

直感的説明

中心極限定理とは、独立同分布(i.i.d.)な確率変数の和や平均を考えたとき、それらの分布が元の確率変数の分布に関わらず、正規分布 に分布収束することを述べる定理である。

例えば、複数のコインを同時に投げ、(表が出た枚数) - (裏が出た枚数)の値を記録するという実験を 10,000回 繰り返したとする。このとき、一度に投げるコインの個数(サンプルサイズ)を 2個、10個、30個と増やしていくと、記録した和の分布は次第に正規分布に近づくことが観察される。

この現象を数学的に表現すると、次のようになる。

確率変数

X_1, X_2, …, X_n
を考える。それらが従う分布の期待値と分散が与えられてるとし、それらを E[X_i] = \mu, Var[X_i] = \sigma^2(有限)とする。このとき、確率変数の和 S_n = \sum_{i=1}^{n} X_i を考えると、 E[S_n] = n\mu, Var[S_n] = n\sigma^2 (独立性の仮定を使用)であり 、これが従う分布は、 n を大きくするにつれて、 N(n\mu,n\sigma^2) に近づく、ということである.

先ほどのコインの例を考える.

X_i = \begin{cases}1\ (表) \\ -1\ (裏) \end{cases} X_i \sim Ber(1/2), E[X_i] = 0, Var[X_i] = 1

だから、 n が十分大きいとき、 S_n \sim N(0,n) となる。

S_n は、長さ n の対称ランダムウォークのパスを発生させたときの最終時刻 n での位置に相当する. 期待値が0, 分散が n であることは、対称ランダムウォークなのだから中心は 原点 0 に位置し、進む時間が長ければ長いほど遠くへ飛んでいく可能性が増えることから想像に難くないだろう. 注目すべき点は、 進む時間が十分大きければ、最終時の位置の分布が正規分布であるということである. この様子を視覚的に観察できる玩具がGalton Boardである.

一般論に戻ろう. ここまでは、確率変数 X_i の和 S_n = \sum_{i=1}^{n} X_i に注目したが、これを標準化した確率変数 Z_n = \frac{S_n - n\mu}{\sigma \sqrt{n}}を考える. E[Z_n] = 0 , Var[Z_n] = 1 と計算出来る. これが N(0,1) に近づく、と言い換えられる.

コインの場合はベルヌーイ分布であったが、分布は何でもよい. たとえばサイコロの場合は離散一様分布、めったに起こらない現象の計数の場合はポアソン分布、となるが、いずれも同じく Z_nN(0,1) に分布収束することが確認できる.

証明の方針

  • ひとまずは 独立同分布な確率変数列に対する中心極限定理の証明を目標にする
    • 同分布ではないバージョンのCLT、独立でなくても成り立つバージョンのCLTもある.
  • 通常は後々の応用(たとえばブラウン運動の構成)を考慮して一般の完備可分距離空間 S 上で理論を展開する場合が多いが、今回は簡単のため、適宜 S = \mathbb{R} として議論を進める.

次回

次回は、CLTの証明までの道筋について述べる。(次回記事 -> 「中心極限定理(CLT)の完全証明その2~証明の道筋~」 )

Discussion