🚀

『現代数理統計学』を理解したい①

2023/04/30に公開

はじめに

どこまで続くか分からないが、個人のgithubで書き溜めていたところを加筆修正しながら
竹村『現代数理統計学』を理解しにかかる。
なお、表記はかなり雑であるし、言葉遣いも雑である。気になるようなら読まないほうが良く、 気にならないなら気にしない方が良い。

数理統計学ノート01 確率と期待値

ここでは確率と期待値についての記述を行う

確率と確率変数

実は竹村数理統計では明示的に事象を定義していないというか、
事象という概念があるものとしてスタートする。
『統計学実践ワークブック』でもそうなんだけどちょっと気持ちが悪い。
ここではもう一歩戻って「試行」という概念を導入して整理する。

試行と事象

例えば「サイコロをふる」とか「コイントスを行う」というような、
結果を予測できない不確実な行動を「試行」と呼ぶ。
その結果、たとえば「4の目が出る」とか「表が出る」とかを「事象」と呼ぶ。
サイコロの例では分かりやすいが、「1の目が出る」も事象だし、
「偶数の目が出る」や「3の倍数の目が出る」も事象。
この辺の整理が公理的確率論の最初らへんにある話。

  • 事象の集合を「標本空間」 \Omegaと表す事がある。
  • \Omega の部分集合族 \mathcal{B} を考えて、そこから[0, 1]への写像を確率測度といい、 Pで表す。
    • \mathcal{B}は標本空間のうち「起こりうる結果」すべての集合である。
      例えば上記のような例はしっかり含まれる。
      • サイコロの例で言えば\mathcal{B} = 2^\Omegaで扱って良い。ここで、2^\Omega\Omegaのべき集合を表す。
      • 「起こり得ない結果」も、何らかの条件のもとでは確率が定義できる。例えば「奇数かつ偶数」というような数の集合は存在しないが、
        {x|xは奇数 \land xは偶数}となるようなxは空集合\phiであるとみなし、確率0を与えるようにすれば良さそう。
      • このへんは上手く整理できていないので、考えが変わるかもしれない。
    • この \mathcal{B}は、確率を定義する上で良い性質を持つ。
      • 完全加法族(\sigma加法族)であること。集合論的に測度を定義できるような集合と思えば、竹村数理統計を進める上ではそこまで問題にはならないと思う。
  • 上記で揃った\{\Omega, \mathcal{B}, P\}を「確率空間」と呼ぶ。
  • 確率空間から実数全体\mathbb{R}への写像を「確率変数」と呼ぶ。
    • 確率変数Xはこれまた確率を扱う上で都合の良い性質を持つ。
      • 逆写像を持つこととかだろうかと思ったら逆写像を持たないような確率変数も定義できるらしいので違う。
    • 世の中の多くの「データ」と呼ばれるものは離散だが、別に実数全体の集合で定義しても辛くはないので、このまま推し進む。

という雑な公理的確率論の整理をしておいて、これより細かく知りたい場合は別の本をあたろう。

確率関数(竹村, p6~p7)

Xを確率測度Pに突っ込んで、確率空間にそのまま組み込んでP(X=x)と言うかたちで定義できる。
このあたりは僕も上手く整理できていないが、多分そういう都合の良い性質を持っているのだと思い込もう。
確率測度は[0, 1]の空間に事象を写す写像として定めているから「負の確率」にはならないし「確率が1以上」になることもない。直観的に考えて「全事象の確率」は1である。竹村数理統計における式2.5がそれ。
以下の性質は、確率を実務で使うという立場である限りは無条件に正しさを受け入れて良いことにし、証明は省こうと思う。証明を求める場合は公理から導く必要があるが、意欲のある人にカバーしてもらおうと思う。

\begin{equation} \left\{\, \begin{aligned} \sum_{x} P(X=x) = 1 (xが離散のとき)\\ \int_x P(X=x) dx = 1(xが連続のとき) \end{aligned} \right . \end{equation}

以降、しばらくは離散の場合を考えられれば理解が苦しくないので、
確率にかんする関数は和記号で記述する。確率を実務で使う上では、
積分は和記号の連続化と見て差し支えないことにする。

……もとい準備が間に合わないので、連続値への定式化は一旦飛ばすとも言う。

累積分布関数(竹村, p7~p10)

確率関数の累積和を「累積分布関数」という。Cumulative Distribution Functionを略して
「cdf」と書くこともある。cdfは以下のように定義される

F(x) = P(X \leq x) = \sum_{y \leq x} p(y)

離散においては、cdfは右連続となる。竹村の記述では極限の記述についてやや詳細に書いてあるが、
ここについては最悪読み飛ばしても理解がかなわない、ということはない。
連続においては、「xがピッタリ特定の値をとる確率」は0となることに注意する。
竹村の記述では「無限の精度で……」という記述がある。極限や微分の定義を知っていれば、
ここについてはあまり困ることはないと思われる。

【練習】

x \in \{0, 1\}のときに確率1を取り、それ以外の領域では0となるような
一様分布のcdfを求め、その概形を書け。

【答え】
頑張れ。

何れにせよ、何らかの形で「累積分布関数の微分」を定義できれば、これが「確率密度関数」と呼ばれる。

f(x) = F'(x) = \lim_{\epsilon \rightarrow 0}\frac{P(x \leq X \leq x +\epsilon)}{\epsilon}

離散の場合は、特定の値を取る確率を定義できるためか、「確率質量関数」と呼ばれることもある。
確率質量関数はProbability Mass Functionを略してpmf、
確率密度関数は、Probability Density Functionを略してpdfと表記される。

最後に正規化定数という考え方を簡単に。
f(x)はpdfで、特定の関数h(x)[0, 1]の区間で値を取るように定数倍したものとして定義できる場合を考える。すなわち、

f(x) = c \cdot h(x)

を満たすような定数cが存在する。これを正規化定数という。
竹村では基準化定数と言っているが、正規化定数のほうが一般的じゃないかなあ。
これは容易に解けて、

c = \frac{1}{\int_{-\infty}^\infty h(x) dx}

である。竹村にも記述があるので確かめよう。

最後に、X \sim Fと書いて「Xは分布Fに従う」と呼ぶことをここでは約束する。
実務においては離散も連続もあまり意識しなくて良いし、実際統計検定においても、
一旦は「和記号の連続版が積分」という理解のまま、連続確率変数に関して議論しても
あんまり問題はない。厳密に数学的対象として扱う場合は、もちろんちゃんと考えなければならない。

確率変数の期待値と分付の特性値

期待値は、以下のように定義される。和記号のみで記述するので、積分記号は竹村の該当箇所を見るか、
脳内補完して欲しい。

E[X] = \sum_{x}xp(x)

記述統計のときの標本平均ともよく似ている。p(x) = 1/nとおけばそれっぽい。
期待値は「線型性」を持つ。すなわち、E[a + bX] = a + bE[X]
これを示す。

\begin{equation} \begin{aligned} E[a + bX] = \sum_{x} (a+bx)p(x)\\ = \sum_{x} ap(x)+bxp(x)\\ = \sum_{x} ap(x) + \sum_{x}bxp(x)\\ = a \sum_{x} p(x) + b \sum_{x} xp(x) \\ = a + bE[X] \end{aligned} \end{equation}

同様に2つの確率変数(X, Y)があったとき、その和の期待値について

E[X+Y] = E[X] + E[Y]

を満たす。多次元の確率変数は3章なので、証明はその人に任せようと思う。

分散は以下のように定義される。ここで定義される分散は「母分散」である。

Var[X] = \sum_{x}(x-\mu)^2p(x)

ただし\mu = E[X]である。
ここで「なんか似ているな」と思ったら結構鋭い。一般にXの変数変換g(X)を考えるとき、E[g(X)] = \sum_{x}g(x)p(x)とおけば、$g(X) = (X-\mu)^2 $と考えると
分散の定義式を表現できる。

特に、Xのべき乗g(x) = X^kを考えて、その期待値E[g(X)] = E[X^k]を原点周りのk次のモーメントと呼ぶ。また、g(x) = (X-\mu)^kk次の平均周りのモーメントとして定義される。つまり

\begin{equation} \begin{aligned} \mu_k' = E[X^k] \\ \mu_k = E[(X-\mu)^k] \end{aligned} \end{equation}

ということ。

【練習】
竹村の問2.1を求めよ。

【答え】
原点周りのモーメントは、平均周りのモーメントを使って表現できるし、
平均周りのモーメントも、原点周りのモーメントと平均を用いて表現できる。
計算は頑張れ。

指示関数その他は省略。

Discussion