これは統計検定1級のために個人的に作ったノートを公開したものです。過去問をやって分からなかった概念で、公式の教科書に載っていなかったこと、記述が薄いことをまとめていたり、ちゃんと証明をつけたりしています。
理論の厳密性が気になる方には良い情報を提供できると思います。
元々確率分布についてもこの記事にまとめていましたが、訳あって分離しました。
https://zenn.dev/oroshi/articles/statistics_distribution
確率論の基本的な概念
ある程度の概念は既知とする。
確率変数
公式の教科書には、「ある確率に基づいた試行の結果により値が定まるような変数を確率変数という」と定義されている。確率的に定まる値、くらい雑に理解していてもあまり困らない。
より正確な定義
雑な理解だと一般論を理解するのに困る場合があるので、もう少し正確な定義を (かなり省略して) 述べておく。
事象の集合 (標本空間) \Omega と、事象 A \subset \Omega に対する確率 P(A) が与えられているとする。関数 X: \Omega \to \mathbb{R} を確率変数という。値域は \mathbb{R}^n や他のものである場合がある。
例えばコイン投げの場合、標本空間 \Omega = \{表、裏\} に対して
X(\omega) = \begin{cases} 1 & (w = 表) \\ 0 & (w = 裏)\end{cases}
や
Y(\omega) = \begin{cases} 2 & (w = 表) \\ -1 & (w = 裏)\end{cases}
などは確率変数である。
P_{\theta}(表) = \theta, P_{\theta}(裏) = 1-\theta のように確率がパラメーター \theta に依存する場合がある。確率変数が確率的に定まる値であると理解していると、確率変数の値も \theta に依存するように思えるが、正確な定義を知っておくと確率変数はただの関数だから \theta に依存しないことがわかる。
このように理解しておくと、統計の一般論において \theta での微分を計算する時などに混乱せずに済む。ほとんどの場合 \Omega は重要でないので、明記されない。
(より厳密には、確率変数がパラメーターに依存する場合もある。例えば確率 (分布) がパラメータ \theta に依存していて、その平均からのずれ Y = X -E_{\theta}[X] を確率変数とする場合など。ただしこのような場合は確率変数 Y の式に明示的に \theta が現れる。確率変数にパラメーターが明示的に現れないのならば、確率分布がパラメーターに依存しても確率変数はパラメーターに依存しない。)
確率変数の演算と分布
実数値確率変数 X, Y の同時確率密度関数を p(x, y) とする。このとき確率変数 Z = f(X, Y) の確率密度関数は
p(z) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \delta(z -f(x, y)) p(x, y) dxdy
で与えられる。\delta はデルタ関数である。特に Z = X + Y の確率密度関数は
\begin{align*}
p(z) &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \delta(z -(x+y)) p(x, y) dxdy \\
&= \int_{-\infty}^{\infty} p(x, z-x) dx
\end{align*}
で与えられる ( z -(x+y) = 0 を y について解いて代入した)。X, Y が独立なら
p(z) = \int_{-\infty}^{\infty} p_X(x)p_Y(z-x) dx
で与えられる。
証明のようなもの
Z = f(X, Y) の累積分布関数は、D_z = \{(x, y) \mid f(x, y) \leq z \} とおいて
F(z) = \int_{D_z} p(x, y) dx dy
である。これを z で微分すると
\begin{align*}
p(z) &= \lim_{h \to 0} \frac{1}{h} \left(\int_{D_z} p(x, y) dx dy - \int_{D_{z-h}} p(x, y) dx dy\right) \\
&= \lim_{h \to 0} \frac{1}{h}\int_{D_z \setminus D_{z-h}} p(x, y) dx dy \\
&= \int_{f(x,y)=z} p(x, y) dx dy \\
&= \int_{\mathbb{R}^2} \delta(z -f(x, y)) p(x, y) dx dy
\end{align*}
最後の等式が数学的にどう正当化されるか分からないが、おそらく正しい。
デルタ関数を使わない方法 (よく使う)
こちらの方法はよく出てくる印象。
Z = f(X, Y) の累積分布関数は、D_z = \{(x, y) \mid f(x, y) \leq z \} とおいて
F(z) = \int_{D_z} p(x, y) dx dy
である。t = f(x, y), s = g(x, y) とおいてうまく積分変換できたとして
\int_{D_z} p(x, y) dx dy = \int_{-\infty}^z \int_{-\infty}^{\infty} q(t, s)ds dt
という形にできれば、\int_{-\infty}^{\infty} q(t, s)ds が確率密度関数になる。
例えば Z = X + Y のとき、t = x + y, s = x とおけば、E_z = \{(t, s) \mid t \leq z\} とおいたとき
G: D_z \to E_z, \quad (x, y) \mapsto (t, s) = (x+y, x)
は 1 対 1 である (ただの線型写像)。逆写像は G^{-1}(t, s) = (s, t-s) = (x, y) で、ヤコビアンは J_{G^{-1}} = 1 である。よって
\begin{align*}
F(z) &= \int_{D_z} p(x, y) dx dy \\
&= \int_{E_z} p(s, t-s) |J_G^{-1}| dt ds \\
&= \int_{-\infty}^z \int_{-\infty}^{\infty} p(s, t-s) dsdt
\end{align*}
モーメント母関数
確率変数 X に対して M_X(t) = E[e^{tX}] を X のモーメント母関数という。n 次導関数の t = 0 の値が
となり、n 次のモーメントを求められる。
式の証明
微分と積分が交換可能であること、M_X(t) はいくらでも微分可能であることを仮定する。
X が確率密度関数 p(x) に従うとすれば
\begin{align*}
M_X^{\prime}(t) &= \frac{d}{dt} \int_{-\infty}^{\infty} e^{tx} p(x) dx \\
&= \int_{-\infty}^{\infty} \frac{d}{dt} e^{tx} p(x) dx \\
&= \int_{-\infty}^{\infty} x e^{tx} p(x) dx
\end{align*}
よって e^{0x} = 1 から
M_X^{\prime}(0) = \int_{-\infty}^{\infty} x p(x) dx = E[X]
となる。
M_X^{(n-1)}(t) = \int_{-\infty}^{\infty} x^{n-1} e^{tx} p(x) dx
と仮定すれば同様の計算で M_X^{(n)}(t) も同じ形になることがわかり、M_X^{(n)}(0) = E[X^n] がわかる。
X と Y が独立であれば
M_{X+Y}(t) = M_X(t)M_Y(t)
が成り立つ。
式の証明
X, Y が独立なので、同時確率密度関数は p_{X, Y}(x, y) = p_X(x)p_Y(y) と分かれる。よって
\begin{align*}
& M_{X+Y}(t) = E[e^{tX}e^{tY}] \\
= \ & \int \int e^{tx}e^{ty} p_{X, Y}(x, y)dxdy \\
= \ & \int e^{tx} p_X(x) dx \int e^{ty}p_Y(y)dy \\
= \ & M_X(t)M_Y(t)
\end{align*}
特性関数
試験にはおそらく出てこない (複素数が出てこない?) が、一応載せておく。
i を虚数単位とする。確率変数 X に対して \varphi_X(t) = E[e^{itX}] を X の特性関数という。|e^{itX}| \leq 1 なので \varphi_X(t) は任意の t \in \mathbb{R} で定義される。特性関数は確率密度関数のフーリエ (逆) 変換なので逆変換ができる。
X, Y を確率変数とする。\varphi_X(t) = \varphi_Y(t) ならば X と Y が従う分布は等しいことが知られている。
良く使う不等式
マルコフの不等式
X を (実数値) 確率変数とする。|E[X]| < \infty のとき、任意の a > 0 に対して
P(|X| \geq a) \leq \frac{E[|X|]}{a}.
a が小さく、E[|X|] > a のときは無意味。a が大きいときは |X| > a となる確率が \frac{E[|X|]}{a} で抑えられる。
直接使うことはないかもしれないが、証明のテクニックは覚えておいて良いかもしれない。
略証
確率変数 I を |X| が a より小さい場合 0, |X| が a 以上の場合 1 と定義する。つまり
I(\omega) = \begin{cases} 0 & (|X(\omega)| < a) \\ 1 & (|X(\omega)| \geq a) \end{cases}
と定義する。
E[I] = P(|X| \geq a) に注意。
aI \leq |X| なので両辺の期待値を取れば良い。
チェビシェフの不等式
X を (実数値) 確率変数とし、\mu = E[X] とおく。このとき
P(|X-\mu| \geq a) \leq \frac{V[X]}{a^2}.
この不等式の分散に注目すれば、分散が小さければ X がほとんど期待値に近い値をとることがわかる。分母が 2 乗なのは分散が 2 乗の積分だからである。よく使う。
略証
マルコフの不等式の証明とほとんど同じ。f: [0, \infty) \to \mathbb{R} を単調増加関数とする。確率変数 X に対して確率変数 I をマルコフの不等式の証明と同様に取れば f(a) I \leq f(|X|). 両辺の期待値を取れば
P(|X| \geq a) \leq \frac{f(|X|)}{f(a)}
X を
X -\mu,
f(x) = x^2 とすればチェビシェフの不等式が得られる。
イェンセンの不等式
X を (実数値) 確率変数とする。|E[X]| < \infty, f: \mathbb{R} \to \mathbb{R} を下に凸な関数としたとき
f を -f に置き換えれば上に凸の場合も適用可能。f = -\log の場合が有名。出題される可能性は低そうだが有名なので載せておく。
略証
a = E(X) とおく。f は下に凸なので、x = a において適当な接線を引くことで
となる (c は適当な実数)。両辺の期待値を取れば良い。
シュワルツの不等式
確率変数 X, Y に対して、E[X^2], E[Y^2] が存在すれば
E[XY]^2 \leq E[X^2]E[Y^2].
特に
\mathrm{Cov}(X, Y)^2 \leq V(X)V(Y)
略証など
本質は内積とノルムに関する不等式である。p(x) を確率密度関数とする。確率変数 f, g の内積 \langle f, g\rangle を E[fg]= \int f(x)g(x) p(x)dx で定義できる (ただし E[f^2], E[g^2] < \infty とする)。一般に |\langle x, y\rangle| \leq ||x|| \cdot ||y|| が成り立つ。
証明は、|E[fg]| < \infty ならば例えば
0 \leq ||x + ty||^2 = ||x||^2 + 2t \langle x,y\rangle + t^2 ||y||^2
の判別式を計算すれば良い。
|E[fg]| < \infty という仮定は (ヘルダーの不等式から従うので) 実際は不要である。
条件付き確率、条件付き期待値
基本事項
事象 A, B に対して
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
を B における A の条件確率という。これは B が起きた前提のもとで A が起きる確率である。
(離散) 確率変数の条件付き確率
確率変数 X, Y に対しても条件付き確率を考えることができる。一旦 X, Y は離散的であるとする。X, Y の確率関数を f_{XY}(x, y) (=P(X=x, Y=y))、その周辺化をそれぞれ f_X(x), f_Y(y) とおくと、Y = y という前提で X = x となる確率は
P(X =x \mid Y = y) = \frac{f_{XY}(x, y)}{f_Y(y)}
となる。y を固定した時これは確率関数である、つまり x に関する和をとれば 1 になる。
(離散) 確率変数の条件付き期待値
条件付き期待値を
E[X \mid Y=y] = \sum_{x} x\frac{f_{XY}(x, y)}{f_Y(y)}
と定める。
これらは y を動かせば y の関数であり、y を確率変数 Y に置き換えれば確率変数になる (条件付き期待値なのに。連続確率変数のところで補足する)。
(連続) 確率変数の場合
p_Y(y) > 0 のとき、確率密度関数を
p_{X|Y}(x\mid y) = \frac{p_{XY}(x, y)}{p_Y(y)}
と定める (\int p_{XY}(x, y) dx = p(y))。そこで Y = y のときの条件付き確率、条件付き期待値を
P(a\leq X\leq b \mid Y = y) := \int_a^b p_{X|Y}(x\mid y) dx\\
E[X\mid Y = y] := \int x p_{X|Y}(x\mid y) dx\\
と定める。これは y についての関数であり、y を確率変数 Y に置き換えれば確率変数になる。
p_Y(y) = 0 のときはおそらく出題されないので考えなくて良い。
条件付き分散、共分散
試験に出るかは分からないが、一応書いておく。
条件付き分散を
V[X \mid Y] = \int (x -E[X \mid Y])^2 p_{X|Y}(x \mid y) dx
と定める。普通の分散と同様に
V[X \mid Y] = E[X^2 \mid Y] -E[X \mid Y]^2
が成り立つ。これは確率変数 Y の関数なので Y に関しての期待値を取ることができる。区別するために Y に関するの期待値を E_Y[\cdot] と表せば
E_Y \left[V[X \mid Y] \right] = V[X] -V_Y[E[X \mid Y]]
が成り立つ。
条件付き分散の公式の証明
計算は面倒だが基本的に定義通り計算すれば良い。あとで使う
\begin{gather*}
\int x p_{XY}(x, y) dx = \int x p_{X|Y}(x \mid y) p_Y(y) dx = E[X \mid Y] p_Y(y), \\
E_Y[E[X \mid Y]] = \int E[X \mid Y] p_Y(y) dy = E[X]
\end{gather*}
であることに注意して
\begin{align*}
& E_Y[V[X \mid Y]] = \int V[X \mid Y] p_Y(y) dy\\
= \ & \int\int (x - E[X \mid Y])^2 p_{X|Y}(x\mid y) p_Y(y) dy dx \\
= \ &\int\int (x - E[X \mid Y])^2 p_{XY}(x, y) dy dx \\
= \ & \int\int \left\{(x - E[X \mid Y])^2 - (x - E[X])^2 \right\} p_{XY}(x, y) dy dx \\
& \quad + \int\int (x - E[X])^2 p_{XY}(x, y) dy dx \\
= \ & \int\int \left\{-2x E[X \mid Y] + E[X \mid Y]^2 + \right.\\
& \qquad \quad \left. 2xE[X] -E[X]^2 \right\} p_{XY}(x, y) dy dx + V[X] \\
= \ & V[X] + \int -(E[X \mid Y]^2 -2E[X \mid Y]E[X]+E[X]^2)p_y(y) dy \\
= \ & V[X] - \int (E[X \mid Y]-E[X])^2p_y(y) dy \\
= \ & V[X] -V_Y[E[X \mid Y]]
\end{align*}
また、X_1, X_2, Y の同時確率密度関数を p_{X_1X_2Y}(x_1, x_2, y) とし、
p_{X_1X_2 | Y}(x_1, x_2| y) = \frac{p_{X_1X_2Y}(x_1, x_2, y)}{p_Y(y)}
とおく。このとき X_1, X_2 の Y における条件付き共分散を
\begin{align*}
& \mathrm{Cov}(X_1, X_2 \mid Y) \\
= \ & \int (x_1 -E[X_1 \mid Y])(x_2 -E[X_1 \mid Y]) p_{X_1X_2 | Y}(x_1, x_2| y) dx_1 dx_2
\end{align*}
と定める。このとき
E_Y[\mathrm{Cov}(X_1, X_2 \mid Y)] = \mathrm{Cov}(X_1, X_2) - \mathrm{Cov}(E[X_1 \mid Y], E[X_2 \mid Y])
が成り立つ。
条件付き共分散の公式の証明
\begin{align*}
& E_Y[\mathrm{Cov}(X_1, X_2 \mid Y)] \\
= \ & \int \int (x_1 -E[X_1 \mid Y])(x_2 -E[X_1 \mid Y]) p_{X_1X_2 | Y}(x_1, x_2| y) dx_1 dx_2 p_Y(y) dy \\
= \ & \int \int \{(x_1 -E[X_1 \mid Y])(x_2 -E[X_1 \mid Y]) \\
& \quad -(x_1 -E[X_1])(x_2 -E[X_1])\} p_{X_1X_2 | Y}(x_1, x_2| y) p_Y(y) dx_1 dx_2dy \\
& \qquad + \mathrm{Cov}(X_1, X_2) \\
\end{align*}
ここで被積分関数を整理すると
\begin{align*}
&(x_1 -E[X_1 \mid Y])(x_2 -E[X_2 \mid Y]) -(x_1 -E[X_1])(x_2 -E[X_2]) \\
= \ & -x_1 E[X_2 \mid Y] -x_2 E[X_1 \mid Y] + E[X_1 \mid Y]E[X_2 \mid Y] \\
& \quad +x_1 E[X_2] +x_2 E[X_1] - E[X_1]E[X_2]
\end{align*}
なので x_1, x_2 に関して積分したものは
\begin{align*}
&-E[X_1\mid Y]E[X_2 \mid Y] + E[X_1|Y] E[X_2] + E[X_2|Y] E[X_1] - E[X_1]E[X_2] \\
= \ & -(E[X_1\mid Y] -E[X_1])(E[X_2 \mid Y] - E[X_2])
\end{align*}
となる。これを y に関して積分すれば -\mathrm{Cov}(E[X_1 \mid Y], E[X_2 \mid Y]) となる。
偏相関
3 つの確率変数 Y_1, Y_2, X があったとき、Y_1, Y_2 の直接的な関係は薄いが、それぞれ X との関係が強いために Y_1, Y_2 の相関が強く出てしまうことがある。X の影響を取り除いた相関の尺度を
r_{y_1y_2 \mid x} = \frac{r_{y_1 y_2} -r_{y_1 x}r_{y_2 x}}{\sqrt{1 -r_{y_1x}^2}\sqrt{1 -r_{y_2x}^2}}
と定める。だたし r_{y_1 y_2} は Y_1, Y_2 の相関、他も同様である。
一般的な説明
Y_1 は X と線形の関係にある、つまり
Y_1 = a_1 X + b_1 + \hat{Y_1}
と表せ、X と \hat{Y_1} は特別な関係を持つ (例えば独立、無相関) と仮定する。\hat{Y_1} は Y_1 から X に関する要素を除いたものと考えられる。Y_2 も同様であるとすれば、\hat{Y_1} と \hat{Y_2} の相関は X との関係を除いた相関であると言える。
一般に X と \hat{Y_i} を独立にすることはできないが、無相関にすることは可能である。X と \hat{Y_i} が無相関であると仮定すると。
\mathrm{Cov}(Y_i, X) = a_1 V[X]
から
a_i = \frac{\mathrm{Cov}(Y_i, X)}{V[X]}
となる。逆に a_i, b_i をこのように定めれば \mathrm{Cov}(Y_i, X) = 0 となる。ちなみに E[\hat{Y_1}] = 0 という条件を課せば b_i も定まる (おそらく最小二乗法でも同じ結果になる)。
ここで \hat{Y_1}, \hat{Y_2} の分散、共分散は
\begin{align*}
V[\hat{Y_i}] &= V[(Y_i -a_iX-b_i)] \\
&= V[Y_i] -2a_i \mathrm{Cov}(Y_i, X) +a_i^2V[X]\\
&= V[Y_i] - \frac{\mathrm{Cov}(Y_i, X)^2}{V[X]} \\
&= V[Y_i] \left(1 -\frac{\mathrm{Cov}(Y_i, X)^2}{V[X]V[Y_i]}\right) \\
&= V[Y_i] (1 -r_{y_i x}^2)
\end{align*}
\begin{align*}
\mathrm{Cov}(\hat{Y_1}, \hat{Y_2}) &= \mathrm{Cov}(Y_1 -a_1 X -b_1, Y_2 -a_2 X -b_2) \\
&=\mathrm{Cov}(Y_1, Y_2) - a_2 \mathrm{Cov}(Y_1, X)- a_1 \mathrm{Cov}(X, Y_2) + a_1 a_2 V[X] \\
&=\mathrm{Cov}(Y_1, Y_2) - \frac{\mathrm{Cov}(Y_1, X)\mathrm{Cov}(Y_2, X)}{V[X]} \\
&= \sqrt{V[Y_1]}\sqrt{V[Y_2]}(r_{y_1y_2} -r_{y_1x}r_{y_2x})
\end{align*}
となる。よって \hat{Y_1} と \hat{Y_2} の相関は
\frac{\mathrm{Cov}(\hat{Y_1}, \hat{Y_2})}{\sqrt{V[\hat{Y_1}]}\sqrt{V[\hat{Y_2}]}} = \frac{r_{y_1y_2} -r_{y_1x}r_{y_2x}}{\sqrt{1 -r_{y_1 x}^2}\sqrt{1 -r_{y_2 x}^2}}
となり、偏相関の定義に一致する。
条件付き共分散との関係
[これはメモです]
一般的な説明では Y_1 と X に線形な関係があることを仮定した。これは例えば Y_1 = X^2 + \varepsilon, \varepsilon \sim N(0, \sigma^2) かつ \varepsilon は X と独立、という状況でも適用できるが、\hat{Y_1} と X は独立にはならない (\hat{Y_1} は X の 2 次式になる)。
この例では、条件付き期待値 E[Y_1 \mid X] = X^2 となるため、Y = E[Y_1 \mid X] + \hat{Y} とおけば \hat{Y} = \varepsilon なので E[Y_1 \mid X] と \hat{Y} は独立になる。これは Y = a X + b + \hat{Y} とおくよりも良い分解であるといえる。
一般に \hat{Y} = Y -E[Y \mid X] が X と独立になるとは限らないらしいが、無相関にはなる。このように定義した \hat{Y_1} と \hat{Y_2} の (条件付き) 共分散を用いて偏相関を定義するべきだと思うが、平均をとるタイミングで値が変わる。ChatGPTによると最後に取るのが理論上正しいようだがよくわからない。
r_{y_1 y_2|x} = \frac{\mathrm{Cov}(Y_1, Y_2 \mid X)}{\sqrt{V[Y_1 \mid X]}\sqrt{V[Y_2 \mid X]}}
は X の関数なので、E[r_{y_1 y_2|x}] を偏相関とするのか、
\frac{E[\mathrm{Cov}(Y_1, Y_2 \mid X)]}{\sqrt{E[V[Y_1 \mid X]]}\sqrt{E[V[Y_2 \mid X]]}}
を偏相関とするのか。
\frac{\mathrm{Cov}(E[Y_1|X], E[Y_2 \mid X])}{\sqrt{V[E[Y_1 \mid X]]}\sqrt{V[E[Y_2 \mid X]]}}
ではなさそう。
https://qiita.com/making111/items/e74eb528ce283e6f8314 が参考になりそう。
統計の概念
用語
用語を覚えておくと問題の理解や回答作成に役に立つ。
-
パーセント点
-
累積分布関数 F(x) に対して F(x) が \alpha を超える最初の x、つまり \inf \{x \mid F(x) \geq \alpha\} (F(x) が連続なら F^{-1}(\alpha)) を 100 \alpha パーセント点という。
- 上側、下側などを頭につける場合もある。↑ の定義は下側 100 \alpha パーセント点。正規分布のように分布が対称な場合は両側パーセント点を考えることもある。
-
(確率変数の) 実現値
- 実際の試行の結果として観察された値のこと。観測値ともいう。
-
推定量
- パラメーター \theta に依存する確率分布 P_{\theta} のパラメーター \theta を、その複数の観測値 x = (x_1, \cdots, x_n) の関数 \hat{\theta}(x) として推定する。このときの関数 \hat{\theta} を推定量、\hat{\theta}(x) を推定値という。ただし、確率変数 X = (X_1, \cdots, X_n) の関数 \hat{\theta}(X) を推定量ということもある。\hat{\theta}(X) は確率変数である。
-
不偏推定量
-
X = (X_1, \cdots, X_n) を用いた \theta の推定量 \hat{\theta}(X) に対して、E[\hat{\theta}(X)] = \theta が成り立つとき、\hat{\theta}(X) を不偏推定量という。
最尤推定
実現値 x = (x_1, x_2, \cdots, x_n) から尤度と呼ばれる \theta の関数 L(\theta; x) を定義し、L(\theta; x) が最大となる \theta を推定値とする手法。推定量は x の関数である。x を確率変数 X に置き換えれば推定量 \hat{\theta} は確率変数となる。
尤度
パラメーター \theta に依存する確率分布 P_{\theta} の確率密度関数 (離散ならば確率関数) を f(x; \theta) とおく。実現値 x に対する尤度を
L(\theta; x) = f(x; \theta)
と定義する。独立同分布な試行を複数回行った場合 x = (x_1, \cdots, x_n) に対して
L(\theta; x) = \prod_{i=1}^n f(x_i; \theta)
である。対数を取った
l(\theta; x) = \log L(\theta; x) = \sum_{i=1}^n \log f(x_i; \theta)
を対数尤度という。\log は単調増加関数なので、L(\theta; x) が最大となる \theta と l(\theta; x) が最大となる \theta は同じである。
モーメント法
パラメーター \theta = (\theta_1, \cdots, \theta_m) に依存する確率分布 P_{\theta} に従う確率変数を X とする。X のモーメント E[X^k] と、n 個の標本データ X_1, \cdots, X_n から得られる標本モーメント
\hat{\mu}_k = \frac{1}{m}\sum_{i=1}^{m} X_i^k
を比較し、E[X^k] = \hat{\mu}_k という式を解いて \theta を求める方法をモーメント法という (E[X^k] は \theta の関数である)。2 次モーメントの代わりに分散の比較
V[X] = \frac{1}{m}\sum_{i=1}^{m} (X_i -E[X])^2
や不偏分散との比較
V[X] = \frac{1}{m-1}\sum_{i=1}^{m} (X_i - \hat{\mu}_1)^2
をしても良い。
区間推定
パラメータ \theta に依存する確率 P_{\theta} があったとし、X = (X_1, X_2, \cdots, X_n) を P_{\theta} を分布にもつ n 個の独立同分布確率変数とする。
X から \theta が含まれるであろう区間を求めるのが区間推定である。つまり関数 L(X) と U(X) で、\theta が区間 (L(X), U(X)) に含まれる確率 P_{\theta}\left(L(X) < \theta < U(X)\right) が任意の \theta に対して一定の値以上である区間を求めるということである。
P_{\theta}\left(L(X) < \theta < U(X)\right) \geq \beta が任意の \theta で成り立つとき、区間 (L(X), U(X)) を信頼係数 \beta の信頼区間という。
L(X), U(X) は条件を満たせばなんでも良く、仮に 0 < \theta < 1 であったとして、L(X) = 0, U(X) = 1 とすれば (L(X), U(X)) は信頼係数 1 の信頼区間である。ただしこれでは何も分からないので、n \to \infty で L(X), U(X) \to \theta となる、分散が小さい、などの性質を持つことが望ましい。
区間推定の典型的な例
平均が未知、分散が 1 の正規分布 N(\mu, 1) を分布にもつ確率変数 X_1, \cdots, X_n から \mu の信頼区間を求める。平均を取った \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i は N(\mu, \frac{1}{n}) に従うので、\sqrt{n}(\bar{X} -\mu) は標準正規分布 N(0, 1) に従う。標準正規分布の両側 \alpha 点を z_{\alpha/2}^+, z_{\alpha/2}^- (z_{\alpha/2}^+ = -z_{\alpha/2}^- > 0) とおくと
P_{\mu}(-z_{\alpha/2}^+< \sqrt{n}(\bar{X} -\mu) < z_{\alpha/2}^+) = 1-\alpha
となる。これを \mu について整理して
P_{\mu}\left(\bar{X} -\frac{z_{\alpha/2}^+}{\sqrt{n}} < \mu < \bar{X} +\frac{z_{\alpha/2}^+}{\sqrt{n}}\right) = 1-\alpha
が成り立つ。
L(X) = \bar{X} -z_{\alpha/2}^+/\sqrt{n} \\
U(X) = \bar{X} +z_{\alpha/2}^+/\sqrt{n}
とおけば (L(X), U(X)) は信頼係数 1 -\alpha の信頼区間である。
このように、X_i の平均や二乗和などを標準化して、なんらかの標準的な分布に従う確率変数をパラメータを含んだ形で作り、\alpha パーセント点をとる、というのが常套手段である。
標準化するのに確率分布の種類や性質を知っている必要がある。
フィッシャー情報量
対数尤度を \theta で微分した \frac{\partial}{\partial \theta} l(\theta; X) の分散
V\left[\frac{\partial}{\partial \theta} l(\theta; X)\right] = E\left[\left(\frac{\partial}{\partial \theta} l(\theta; X)\right)^2\right]
をフィッシャー情報量という。ただし、上の等式は平均 E\left[\frac{\partial}{\partial \theta} l(\theta; X)\right] = 0 の元で成り立つ。
平均が 0 であること
X が従う確率分布の確率密度関数を f(x; \theta) とおく。このとき
\begin{align*}
E\left[\frac{\partial}{\partial \theta} l(\theta; X)\right] &= \int \left(\frac{\partial}{\partial \theta} l(\theta; x) \right) f(x; \theta) dx\\
&= \int \left(\frac{\partial}{\partial \theta} \log f(x; \theta)\right) f(x; \theta) dx\\
&= \int \frac{\frac{\partial}{\partial \theta} f(x; \theta)}{f(x; \theta)} f(x; \theta) dx\\
&= \int \frac{\partial}{\partial \theta} f(x; \theta)dx\\
&= \frac{\partial}{\partial \theta} \int f(x; \theta)dx\\
&= 0
\end{align*}
ただし、途中で \theta に関する微分と x に関する積分交換可能であることを用いた (仮定した)。最後の等式は \int f(x; \theta)dx = 1 から成り立つ。
クラメール・ラオの定理
フィッシャー情報量を J(\theta) とおく。J(\theta) \neq 0 ならば \theta の任意の不偏推定量 \hat{\theta} に対して
V[\hat{\theta}] \geq \frac{1}{J(\theta)}
が成り立つ。これをクラメール・ラオの定理という。
証明
\hat{\theta} -\theta と \frac{\partial}{\partial \theta} l(\theta; x) の共分散は
\mathrm{Cov}\left(\hat{\theta} -\theta, \frac{\partial}{\partial \theta} l(\theta; x) \right) \leq \sqrt{V[\hat{\theta} -\theta]} \sqrt{V\left[\frac{\partial}{\partial \theta} l(\theta; x)\right]}
を満たす。ここで左辺は
\begin{align*}
&\mathrm{Cov}\left(\hat{\theta} -\theta, \frac{\partial}{\partial \theta} l(\theta; x) \right) \\
= \ & \int (\hat{\theta} -\theta) \frac{\partial}{\partial \theta} l(\theta; x) f(x; \theta) dx \\
= \ & \int (\hat{\theta} -\theta) \frac{\partial}{\partial \theta} f(x; \theta) dx \\
= \ & \int \hat{\theta} \frac{\partial}{\partial \theta} f(x; \theta) dx - \theta \int \frac{\partial}{\partial \theta} f(x; \theta) dx \\
\end{align*}
であるが、フィッシャー情報量のところで示したように \int \frac{\partial}{\partial \theta} f(x; \theta) dx = 0 である。また \hat{\theta} は \theta に依らないので
\begin{align*}
\int \hat{\theta} \frac{\partial}{\partial \theta} f(x; \theta) dx &= \frac{\partial}{\partial \theta} \int \hat{\theta} f(x; \theta) dx \\
&= \frac{\partial}{\partial \theta} E[\hat{\theta}] \\
&= \frac{\partial}{\partial \theta} \theta = 1
\end{align*}
よって
\mathrm{Cov}\left(\hat{\theta} -\theta, \frac{\partial}{\partial \theta} l(\theta; x) \right) = 1
である。一方 E[\hat{\theta}] = \theta から
V[\hat{\theta} -\theta] = V[\hat{\theta}]
なので
1 \leq V[\hat{\theta}]V\left[\frac{\partial}{\partial \theta} l(\theta; x)\right] = V[\hat{\theta}] J(\theta)
よって
V[\hat{\theta}] \geq \frac{1}{J(\theta)}
KLダイバージェンスの 2 階微分がフィッシャー情報量であること、フィッシャー情報量を (少なくとも局所的には) パラメーター空間のリーマン計量とみなせることから、\theta をある方向に移動させたとき、KLダイバージェンスの変化が大きいほど分散の下限は小さく、逆にKLダイバージェンスの変化が小さいほど分散の下限は大きくなる。よって下限の値自体はパラメーター空間の見かけの問題であると言える。
下限があるということが重要だと思われる。
十分統計量
確率変数 X から得られる確率変数 T(X) が \theta の十分統計量であるとは、任意の A, t に対して
P(X \in A \mid T(X) =t, \theta) = P(X \in A \mid T(X) =t)
が成り立つことである。つまり T(X) の値が決まっているときに X \in A となる確率が \theta に依存しない、ということである。(\theta を条件付き確率のように書くのは記号の濫用のような気がする。)
このとき
P(X \in A \mid \theta) = P(X \in A \mid T(X) =t)P(T(X) =t \mid \theta)
が成り立ち、\theta の推測を T(X) の値のみで行っても問題ないことがわかる。
上の式の証明
\begin{align*}
P(X \in A \mid \theta) &= P(X \in A \mid T(X) = t, \theta)P(T(X) = t \mid \theta) \\
&= P(X \in A \mid T(X) =t)P(T(X) =t \mid \theta)
\end{align*}
フィッシャー・ネイマンの分解定理
X の確率 (密度) 関数を f(x; \theta) とおく。このとき T(X) が \theta の十分統計量であることと
f(x; \theta) = h(x) g(T(x); \theta)
となる関数 h と g が存在することは同値である。
例
コインの表が出る確率を p としたときに p を推定することを考える。確率変数 X_i を i 番目に投げたコインが表であるとき 1, 裏のとき 0 であるとする。また、n 回投げたときの表が出た回数の合計を T(X) = \sum_{i=1}^n X_i とおく。このとき X = (X_1, \cdots, X_n) の確率関数は
\begin{align*}
P(X = x) &= \prod_{i=1}^n p^{x_i} (1 -p)^{1-x_i} \\
&= p^{T(x)} (1 -p)^{n -T(x)} \\
\end{align*}
と表せられる。h(x) = 1, g(x, p) = p^{x} (1 -p)^{n -x} とおけば T(X) が \theta の十分統計量であることがわかる。
ラオ・ブラックウェルの定理
T(X) が \theta の十分統計量であるとし、\hat{\theta} を \theta の推定量であるとする。このとき \hat{\theta}_1(T) = E[\hat{\theta} \mid T] (条件付き期待値) とおけば
E[(\hat{\theta}_1(T) -\theta)^2] \leq E[(\hat{\theta}(X) -\theta)^2]
が成り立つ。分散ではなく平均二乗誤差であることに注意する (不偏推定量なら分散となる)。
証明
E[\hat{\theta}_1(T)] = E[\hat{\theta}(X)] に注意して平均二乗誤差を展開すれば、E[\hat{\theta}_1(T)^2] \leq E[\hat{\theta}(X)^2] を示せば良い。
x^2 は下に凸なので、(条件付き期待値に関する) イェンセンの不等式から
\hat{\theta}_1(T)^2 = E[\hat{\theta}(X) \mid T]^2 \leq E[\hat{\theta}(X)^2 \mid T]
が成り立つ。これを T に関して期待値をとれば
E[\hat{\theta}_1(T)^2] \leq E[E[\hat{\theta}(X)^2 \mid T]] = E[\hat{\theta}(X)^2 ]
となる。
ちなみに分散に関する不等式
V[\hat{\theta}_1(T)] \leq V[{\theta}(X)]
は条件付き分散の公式からわかる。
確率過程
確率仮定に関しては統計検定の教科書では不十分です。詐欺では?
ここでは離散的な確率過程のみ扱います。
基本的な概念
定常過程とは
\{X_t\}_{t \in \mathbb{Z}} を確率過程とする。任意の t と n, k > 0 に対して (X_t, X_{t+1}, \cdots, X_{t+n}), (X_{t+m}, X_{t+ m +1}, \cdots, X_{t+ m + n}) が同分布であるとき、強定常であるという。
E[X_t], V[X_t] が存在し、かつ t によらず一定で、任意の n \in \mathbb{Z} に対して \mathrm{Cov}(X_t, X_{t-n}) が存在し、n にのみ依存するとき弱定常であるという。
強定常ならば弱定常である。まず上の定義の n = 1 とすれば、任意の m に対して X_t, X_{t+m} が同分布であることから平均、分散が一定であることがわかる。適当に周辺化すれば任意の n, m に対して (X_{t-n}, X_{t}), (X_{t+m -n}, X_{t+m}) が同分布である事から共分散が n にのみ依存する。
自己相関、偏自己相関
\{X_t\}_{t \in \mathbb{Z}} を弱定常過程とする。\gamma_n = \mathrm{Cov}(X_t, X_{t-n}) とおく。定義から \gamma_0 = V[X_t] (\forall t), \gamma_{-n} = \gamma_n である。X_t と X_{t-n} の自己相関 \rho_n は
\rho_n = \frac{\mathrm{Cov}(X_t, X_{t-n})}{\sqrt{V[X_t]V[X_{t-n}]}} = \frac{\gamma_n}{\gamma_0}
となる。
X_t と X_{t-n} の自己相関 \rho_n にはその間の X_{t-1}, \cdots, X_{t-n+1} の情報も含まれる。X_{t-1}, \cdots, X_{t-n+1} の影響を除いた X_t と X_{t-n} の偏相関を偏自己相関という。
ホワイトノイズ
(\mathbb{R} に値を取る) 確率過程 \{\varepsilon_t\}_t が以下の性質を持つとき、\{\varepsilon_t\}_t をホワイトノイズという。
\begin{gather*}
E[\varepsilon_t] = 0 \quad(\forall t \in \mathbb{Z})\\
V[\varepsilon_t] = \sigma^2 \quad(\forall t \in \mathbb{Z})\\
\mathrm{Cov}(\varepsilon_t, \varepsilon_{t +n}) = 0 \quad(\forall t \in \mathbb{Z}, k \neq 0)
\end{gather*}
ちなみにこの条件だけでは確率過程が一意に決まらない。平均 0, 分散 \sigma^2 を満たす独立同分布の連続試行は全てホワイトノイズである。
自己回帰モデル (ARモデル)
確率過程 \{y_t\}_t が自己回帰モデル (ARモデル) とは、y_t が過去の k 個の値の線型結合とホワイトノイズ (と定数) で決まる確率過程のことである。つまり、定数 b, a_i \in \mathbb{R} (1 \leq i \leq k) が存在して
y_t = \sum_{i = 1}^k a_i y_{t-i} + b + \varepsilon_t
と表されることである。だたし \varepsilon_t はホワイトノイズである。k 個前までみる自己回帰モデル全体の集合を \mathrm{AR}(k) と表す。
未来のホワイトノイズとの相関は 0、つまり \mathrm{Cov}(y_{t-s}, \varepsilon_t) (s > 0) だが、過去のホワイトノイズは未来に影響が残り続けるので相関が 0 になるとは限らない。(これは数学的に仮定する必要があるのか、定義から従うのかわからないが、成り立つと思っておいて良い。)
自己回帰モデルの定常性
自己回帰モデルは特性方程式
\lambda^k = \sum_{i=1}^k a_i \lambda^{k-i}
の解 \lambda_1, \cdots, \lambda_k が全て |\lambda_i| < 1 を満たすとき、弱定常過程である。逆に一つでも |\lambda_i| \geq 1 を満たせば非定常過程である。
k = 1 の場合の証明
厳密な証明は難しいので、細かい部分は省略する。まず AR(1) の場合、つまり一つ前の値までみる ARモデルを考える。モデルの式
y_t = a_1 y_{t-1} + b + \varepsilon_t
を繰り返し展開すると
\begin{align*}
y_t &= a_1(y_{t-2} + b + \varepsilon_{t-1}) + b + \varepsilon_t \\
&= a_1(a_1 y_{t-3} + b +\varepsilon_{t-2}) + a_1\varepsilon_{t-1} + (a_1 + 1)b + \varepsilon_t\\
&= \dots \\
&= \sum_{n = 0}^{\infty} a_1^n \varepsilon_{t-n} + b \sum_{n = 0}^{\infty}a_1^n
\end{align*}
となる。
右辺が収束すると仮定する。このとき、\varepsilon_s 達が独立であることに注意して
\begin{gather*}
E[y_t] = b \sum_{n = 0}^{\infty}a_1^n\\
V[y_t] = \sigma^2 \sum_{n = 0}^{\infty}a_1^{2n}
\end{gather*}
である。これらが収束する必要十分条件は |a_1| < 1 である。共分散は、i \geq 1 として
\begin{align*}
\mathrm{Cov}(y_t, y_{t-i}) &= E\left[\sum_{n = 0}^{\infty} a_1^n \varepsilon_{t-n}\sum_{n = 0}^{\infty} a_1^n \varepsilon_{t-i-n}\right] \\
&= \sum_{n=0}^{\infty}a_1^{2n+i} V[\varepsilon_{t-i-n}] = \sigma^2 a_1^i\sum_{n=0}^{\infty}a_1^{2n}
\end{align*}
となる。これは i にのみ依存する。よって \{y_t\}_t は弱定常である。
あとは
y_t = \sum_{n = 0}^{\infty} a_1^n \varepsilon_{t-n} + b \sum_{n = 0}^{\infty}a_1^n
が収束するかどうかだが、|a_1| < 1 であれば収束することがわかる (コルモゴロフの定理)。そしてここまでの議論から \{y_t\}_t は弱定常である。逆に収束するなら、|a_1| < 1 でないと E[y_t] や V[y_t] が発散し、弱定常にならない。
ただし、確率変数の級数の収束や、和と積や積分との順序交換が可能かどうかなどはもう少し注意する必要がある。
一般の場合の証明
\bm{y}_t = {}^t(y_t, y_{t-1}, \cdots, y_{t-k+1}) とおく。k \times k 行列 F を
F =
\begin{pmatrix}
a_1 & a_2 & \cdots & a_{k-1} & a_k \\
1 & 0 & \cdots & 0 & 0 \\
0 & 1 & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 1 & 0 \\
\end{pmatrix}
とおく。すると自己回帰モデルの式は
\bm{y}_t = F\bm{y}_{t-1} + \bm{b} + \bm{\varepsilon}_t
と表される。ただし \bm{b} = {}^t (b, 0, \cdots, 0), \bm{\varepsilon}_t = {}^t(\varepsilon_t, 0, \cdots, 0) とする。これから k=1 の場合と同様に
\bm{y}_t = \sum_{n=0}^{\infty} F^n \bm{\varepsilon}_{t -n} + \left(\sum_{n=0}^{\infty}F^n\right)\bm{b}
と表される。ただし F^0 = I (単位行列) とする。
F のノルム ||F|| を、高々 k 個ある F の固有値の絶対値の最大値とする。||F|| < 1 ならば \sum_{n=0}^{\infty}F^n は (I -F)^{-1} に収束することが知られている。\sum_{n=0}^{\infty} F^n \bm{\varepsilon}_{t -n} もおそらく収束する。その前提で、||F|| < 1 が弱定常であることの概略を述べる。
E[y_t] が一定であることは明らか。分散は、ベクトル値確率変数 X = {}^t(X_1, \cdots, X_k) の分散が X \ {}^t \!X (行列) であること、||AB|| \leq ||A||\cdot ||B|| に注意すると、分散 V[y_t] が有限であることがわかる。自己共分散も (計算していないがおそらく) 時間の差のみに依存する。
F の固有値は \mathrm{det}(F -\lambda I) = 0 の解である。行列式の余因子展開と、三角行列の行列式が対角成分の積であることを用いると、
\mathrm{det}(F -\lambda I) = \lambda^k -a_1 \lambda^{k-1} - \cdots -a_k
であることがわかる。以上で、特性方程式の解の絶対値が 1 より小さければ弱定常であることがわかった。
||F|| \geq 1 のときは弱定常にならないようだが、本当かどうかよくわからない。
確率変数の級数の収束について
一応簡単に確率変数の級数の収束についてまとめる。知らなくても困らない。
確率変数列 \{X_n\}_n を考える。各 X_n の定義域を \Omega_i とする。級数 \sum_{k = 1}^n X_n の定義域は直積集合 \prod_{k = 1}^n \Omega_i である。よってこの級数の極限 X の定義域は \prod_{k = 1}^{\infty} \Omega_i になる。このような集合上の確率をどう考えるか、についてはコルモゴロフの拡張定理を理解すれば良い。
\sum_{k = 1}^n X_n の定義域は、n+1 番目以降の値に依存しない関数とみなせば \prod_{k = 1}^{\infty} \Omega_i 上の関数とみなせるので、確率変数列の収束は \prod_{k = 1}^{\infty} \Omega_i における関数列の収束と考えることができる。
収束については概収束、確率収束など何種類かあるが、省略する。
ユール・ウォーカー方程式
ARモデル \{y_t\}_t が定常過程であるとし、E[y_t] = \mu, V[y_t] = \gamma_0, \mathrm{Cov}(y_t, y_{t-n}) = \gamma_n とおく。また、ホワイトノイズ \{\varepsilon_t\}_t の分散を \sigma^2 とおく。このとき
\begin{gather*}
\mu = \frac{b}{1 -\sum_{i=1}^k a_i} \\
\gamma_0 = \frac{\sigma^2}{1-\sum_{i=1}^k a_i \rho_i} \\
\rho_n = \sum_{i=1}^k a_i \rho_{n-i}
\end{gather*}
が成り立つ。一番下の式をユール・ウォーカー方程式という。ユール・ウォーカー方程式と \rho_n = \rho_{-n}, \rho_0 = 1 を使うと、係数 a_i から自己相関 \rho_n を求められる。逆に自己相関 \rho_n がわかっていれば、係数 a_i を求められる。
ユール・ウォーカー方程式の導出
E[y_t] = \mu とおくと
\begin{align*}&E[y_t] = \sum_{i=1}^k a_i E[y_{t-i}] + b \\
& \Rightarrow \mu =\frac{b}{1 -\sum_{i=1}^k a_i}
\end{align*}
と \mu が求まる。定常性から \sum_{i=1}^k a_i \neq 1 である?ここで
\begin{align*}
&y_t -\mu \\
= \ & \sum_{i=1}^k a_i (y_{t-i} -\mu) + b +\varepsilon_t -\mu + \mu\sum_{i=1}^k a_i \\
= \ & \sum_{i=1}^k a_i (y_{t-i} -\mu) + \varepsilon_t
\end{align*}
なので E[y_t] = 0, b = 0 としても一般性を失わない。
分散 V[y_t] = \gamma_0 は \mathrm{Cov}(y_t, \varepsilon_t) = \sigma^2 に注意して
\begin{align*}
\gamma_0 &= E \left[y_t \left(\sum_{i = 1}^k a_i y_{t-i} + \varepsilon_t\right)\right] \\
&= \sum_{i = 1}^k a_i \gamma_i + \sigma^2
\end{align*}
となる。変形して \gamma_0 = \sigma^2 /\left(1 -\sum_{i = 1}^k a_i \rho_i\right) とも表される。また
\begin{align*}
\gamma_n &= E[y_t y_{t-n}] = E \left[\left(\sum_{i = 1}^k a_i y_{t-i} + \varepsilon_t\right)y_{t-n}\right] \\
&= \sum_{i = 1}^k a_i \gamma_{n-i}
\end{align*}
からユール・ウォーカー方程式 \rho_n = \sum_{i = 1}^k a_i \rho_{n-i} が得られる。
自己相関の計算
a_i がわかっているとして \rho_k を求める。|n| \leq k までの \rho_n を求めれば、それ以降はユール・ウォーカー方程式から逐次的に \rho_n を計算できる。ちなみに、ここでは一般的な場合について述べるが、k = 3 程度なら適当に連立方程式を解くのが良い。
|n| \leq k までは、ユール・ウォーカー方程式から (\rho_i = \rho_{-i} に注意して)
\begin{align*}
\rho_k &= a_1 \rho_{k-1} + a_2 \rho_{k-2} + \cdots + a_{k-1} \rho_{1} + a_k \rho_{0} \\
\rho_{k-1} &= a_1 \rho_{k-2} + a_2 \rho_{k-3} + \cdots + a_{k-1} \rho_0 + a_k \rho_1 \\
&\cdots \\
\rho_{1} &= a_1 \rho_{0} + a_2 \rho_{1} + \cdots + a_{k-1} \rho_{k-2} + a_k \rho_{k-1} \\
\end{align*}
なので
\begin{align*}
\begin{pmatrix}\rho_k \\ \rho_{k-1} \\ \rho_{k-2} \\\vdots \\ \rho_1\end{pmatrix} =
\begin{pmatrix}
0 & a_1 & a_2 & \cdots & a_{k-2} & a_{k-1}\\
0 & 0 & a_1 & \cdots & a_{k-3} & a_{k-2} + a_k\\
0 & 0 & 0 & \cdots & a_{k-4} + a_k & a_{k-3} + a_{k-1} \\
\vdots & \vdots & \vdots & \ddots & \vdots & \vdots\\
0 & a_k & a_{k-1} & \cdots & a_3 & a_2
\end{pmatrix} \begin{pmatrix}\rho_k \\ \rho_{k-1} \\ \rho_{k-2} \\ \vdots \\ \rho_1\end{pmatrix}+
\begin{pmatrix}a_k \\ a_{k-1} \\ a_{k-2} \\ \vdots \\ a_1\end{pmatrix}
\end{align*}
となる。これを解けば良い。
逆に \rho_k がわかっている場合は
\begin{align*}
\begin{pmatrix}\rho_k \\ \rho_{k-1} \\\vdots \\ \rho_1\end{pmatrix} =
\begin{pmatrix}
\rho_{k-1} & \rho_{k-2} & \cdots & 1 \\
\rho_{k-2} & \rho_{k-3} & \cdots & \rho_1 \\
\vdots & \vdots & \ddots & \vdots \\
1 & \rho_1 & \cdots & \rho_{k-1} \\
\end{pmatrix} \begin{pmatrix}a_1 \\ a_2 \\ \vdots \\ a_k\end{pmatrix}
\end{align*}
を解けば良い。
移動平均モデル (MA モデル)
確率過程 \{y_t\}_t が移動平均モデル (MAモデル) とは、y_t が過去の k 個のホワイトノイズの値の線型結合で決まる確率過程のことである。つまり、定数 b, a_i \in \mathbb{R} (1 \leq i \leq k) が存在して
y_t = \sum_{i = 1}^k a_i \varepsilon_{t-i} + b + \varepsilon_t
と表されることである。だたし \varepsilon_n は t = n でのホワイトノイズである。k 個前までみる移動平均モデル全体の集合を \mathrm{MA}(k) と表す。
移動平均モデルの定常性
E[y_t] = b は明らか。分散もホワイトノイズの定義から V[y_t] = (1 + \sum_{i=1}^k a_i) \sigma^2 がわかる。自己共分散の計算は省略するが、\mathrm{Cov}(\varepsilon_t, \varepsilon_{t-n}) は t によらず、n のみによって決まることがホワイトノイズの性質からわかる。よって移動平均モデルは定常である。
移動平均モデルから自己回帰モデルを得る
自己回帰モデルの定常性を考えるときに、自己回帰モデルをホワイトノイズの無限和で表した。これは \mathrm{MA}(\infty) と考えることができる。逆に、ある条件を満たせば移動平均モデルを k = \infty の自己回帰モデルとみなすことができる。\mathrm{MA}(1) の場合だと
\begin{align*}
y_t &= a_1 \varepsilon_{t-1} + b + \varepsilon_t \\
&= a_1( y_{t-1} -a_1\varepsilon_{t-2} -b) + b + \varepsilon_t\\
&= a_1 y_{t-1} -a_1^2 \varepsilon_{t-2} + (1 -a_1)b + \varepsilon_t\\
&= \dots \\
&= \sum_{i=1}^{\infty} (-1)^{i-1}a_1^i y_{t-i} + b\sum_{i=0}^{\infty} (-1)^ia _1^i + \varepsilon_t\\
\end{align*}
となり、|a_1| < 1 ならば (おそらく) 収束する。
計算のテクニック
積分の変数変換
2変数の積分の変数変換は出題される可能性がある。例えば このサイト を参照。
計算上の注意
変換元の集合を D、変換先の集合を D^{\prime} とし、変換前の点を (x, y) \in D, 変換後の点を (u, v) \in D^{\prime} と表す。変換写像を F: D \to D^{\prime} とする。
以下、計算上の注意をまとめる。
- 座標変換 F: D \to D^{\prime} は 1 対 1 であること。
- 掛けるのは逆変換 F^{-1} のヤコビアン (の絶対値) であること。
-
F(x, y) = (u, v) なので、|J_F| dx dy = du dv または dx dy = |J_{F^{-1}}|du dv と覚えておくと良い。
計算の流れとして
- 座標変換 F: D \to D^{\prime} を求める。
- 逆変換 F^{-1} を求める。
- ヤコビアンを計算する。
とするのが良い。
積分の順序交換
多分細かいことを気にせず使って良い。
細かいこと
フビ二の定理から、f が可積分 (|f| の積分が有限) なら積分の順序交換可能。トネリの定理から、f が非負なら非可積分でも順序交換可能。
一般には \sigma-有限であることを仮定するが、確率測度は有限測度なので大丈夫
微分と積分の順序交換
多分細かいことを気にせず使って良い。
細かいこと
f(x, t) が以下の条件を満たすなら積分と微分の順序を交換できる。
-
t \in (a, b) を固定したときに f(x, t) が可積分。
-
x を固定したときに f(x, t) が t \in (a, b) で微分可能。
- 導関数 \frac{\partial f}{\partial t} (の絶対値) が t によらない可積分関数で上から抑えられている。
二重級数の分散
表形式で与えられるような、二つの添字をもつ数列 \{x_{ij}\} (1 \leq i \leq N, 1\leq j \leq M) の分散を考える。i を固定した j に関する平均を \bar{x}_i とおき、全体の平均を \bar{\bar{x}} とおく。つまり
\begin{gather*}
\bar{x}_i = \frac{1}{M} \sum_{j=1}^M x_{ij}\\
\bar{\bar{x}} = \frac{1}{MN} \sum_{i=1}^N\sum_{j=1}^M x_{ij}
\end{gather*}
とおく。このとき分散は以下の式
\frac{1}{MN} \sum_{i=1}^N\sum_{j=1}^M (x_{ij} - \bar{\bar{x}})^2 = \frac{1}{N}\sum_{i=1}^N(\bar{x}_{i} - \bar{\bar{x}})^2 + \frac{1}{MN}\sum_{i=1}^N\sum_{j=1}^M (x_{ij} - \bar{x}_i)^2
を満たす。この式そのものよりも、計算のテクニックを知っておくと応用が効く。
計算の詳細
\begin{align*}
&\sum_{i=1}^N\sum_{j=1}^M (x_{ij} - \bar{\bar{x}})^2 = \sum_{i=1}^N\sum_{j=1}^M (x_{ij} - \bar{x}_i + \bar{x}_i- \bar{\bar{x}})^2 \\
= \ &\sum_{i=1}^N\sum_{j=1}^M (x_{ij} - \bar{x}_i)^2 + \sum_{i=1}^N\sum_{j=1}^M (\bar{x}_i- \bar{\bar{x}})^2 \\
& \qquad + 2 \sum_{i=1}^N\sum_{j=1}^M(x_{ij} - \bar{x}_i)(\bar{x}_i- \bar{\bar{x}})
\end{align*}
ここで、最右辺の第三項は、(\bar{x}_i- \bar{\bar{x}}) は j によらず、(x_{ij} - \bar{x}_i) は j について和をとると 0 になるので全体も 0 になる。最右辺の第二項は j によらないので、全体を NM で割れば求める式が得られる。
補足 (F検定)
上の式を MN 倍したものの、右辺の第一項を S_A とおき、右辺の第二項を S_e とおく。S_A は 水準間平方和、S_e は残差平方和と呼ばれる。x_{ij} が独立同分布な正規分布 N(0, \sigma^2) に従うとき、S_A / \sigma^2 と S_e / \sigma^2 は独立であり、\chi^2 分布に従う。S_A / \sigma^2 の自由度は N-1, 左辺の 2 重級数のほうの自由度は NM -1 なので、S_e / \sigma^2 の自由度は M(N-1) である。
水準間平方和と残差平方和の独立性
各 x_{ij} が独立で、正規分布 N(\mu, \sigma^2) に従うと仮定して独立性を示す。一般に
- 多変量正規分布に従う確率変数を線形変換したものは多変量正規分布に従う
- 2 変量正規分布に従う確率変数の各成分は、互いに無相関なら独立である
が成り立つ。よって \bar{x}_{i} - \bar{\bar{x}} と x_{ij} -\bar{x}_{i} が無相関であることを示せば良い。(これらを並べてベクトルにしたものは、(x_{ij})_{ij} (をベクトルとみなしたもの) の線形変換で得られる。)
\bar{x}_{i}, \bar{\bar{x}} の平均は \mu なので、\mu = 0 として考えて良い。
\begin{align*}
(x_{ij} -\bar{x}_{i})(\bar{x}_{i} - \bar{\bar{x}}) = x_{ij}\bar{x}_{i} -x_{ij}\bar{\bar{x}} -\bar{x}_{i}^2 + \bar{x}_{i}\bar{\bar{x}}
\end{align*}
なので、
\begin{align*}
&E[(x_{ij} -\bar{x}_{i})(\bar{x}_{i} - \bar{\bar{x}})] \\
= \ & \frac{1}{M} E[x_{ij}^2] - \frac{1}{NM} E[x_{ij}^2] \\
& \qquad -\frac{1}{M^2}\sum_{j=1}^M E[x_{ij}^2] + \frac{1}{NM^2}\sum_{j=1}^M E[x_{ij}^2] \\
= \ & 0
\end{align*}
となり、無相関であることがわかる。
実際はもっとゆるい条件で独立性が示せるかもしれない。
\varepsilon_{ij} を正規分布 N(0, \sigma^2) に従う独立な確率変数として
x_{ij} = \mu + \alpha_i + \varepsilon_{ij}
と仮定して、i 毎に平均が等しいか否か、つまり \alpha_1 = \cdots = \alpha_N = 0 が成り立つかを検定することがある。\alpha_i = 0 (1 \leq i \leq N) ならば、S_A/\sigma^2 と S_e/\sigma^2 は独立で \chi^2 分布に従うので、(S_A/N-1) / (S_e/M(N-1)) は F 分布に従う。S_e は i 毎の分散なので、各 \alpha_i が同じでも違っても値が大きく変わらないと考えられるが、S_A は \alpha_i が異なれば大きくなると考えられる。したがって S_A / S_e の値が想定よりも大きくなれば、\alpha_i = 0 (1 \leq i \leq N) という仮説は棄却される。
非復元抽出の平均と分散
有限個の集合 \{x_1, \cdots, x_n\} から複数個を抽出するとき、抽出したサンプルを戻さず次を抽出するサンプリング方法を非復元抽出という。非復元抽出は独立ではないので計算に注意が必要。
各 x_i は実数値であるとする。\{x_1, \cdots, x_n\} から m 個サンプリングすることとし、i 番目にサンプリングする値を表す確率変数を X_i とする。\{x_1, \cdots, x_n\} の平均、分散を
\begin{align*}
\mu &= \frac{1}{n} \sum_{i=1}^n x_i \\
\sigma^2 &= \frac{1}{n} \sum_{i=1}^n (x_i -\mu)^2
\end{align*}
とおく。このとき、抽出される確率に偏りがなければ
\begin{gather*}
E[X_i] = \mu \\
V[X_i] = \sigma^2 \\
\mathrm{Cov}(X_i, X_j) = -\frac{\sigma^2}{n-1}\\
\end{gather*}
である。また、U_m = \frac{1}{m}\sum_{i=1}^m X_i とおくと、
\begin{align*}
E[U_m] &= \mu\\
V[U_m] &= \frac{n-m}{n-1} \frac{\sigma^2}{m}
\end{align*}
である。
$X_i$ の平均、分散、共分散
E[X_i] を求めるには、i 番目に各 x_j が選ばれる確率を求めれば良い。n 個の中から順番を考慮して m 個選ぶ選び方は
n (n-1) \cdots (n -m+1) = \frac{n!}{(n-m)!}
通りで、それぞれ同じ確率で発生する。その中で、
i 番目が
x_j である選び方は、
x_j 以外の
n-1 個の中から
m-1 個を選ぶ
(n-1)! / (n-m)! 通り。よって
E[X_i] = \sum_{j=1}^n \frac{(n-1)!}{n!} x_j = \mu
である。分散も同様に
V[X_i] = \sum_{j=1}^n \frac{(n-1)!}{n!} (x_j -\mu)^2 = \sigma^2
がわかる。
共分散は、i 番目と k 番目に x_j と x_\ell を抽出する選び方は (n-2)!/(n -m)! 通りであることから、i \neq k のとき
\begin{align*}
\mathrm{Cov}(X_i, X_k) &= \frac{(n-2)!}{n!}\sum_{\substack{1 \leq j, \ell \leq n \\ j\neq \ell}} (x_j -\mu)(x_\ell -\mu) \\
&= \frac{1}{n(n-1)} \left(\sum_{j=1}^n (x_j -\mu)\right)^2 -\frac{\sigma^2}{n-1} \\
&= -\frac{\sigma^2}{n-1}
\end{align*}
となる。(1段目から2段目の変形は分散の計算に用いた式を使うことで j = \ell の場合の和を補完した。) これで X_i と X_j が独立でないことがわかる。
$U_m$ の平均、分散
E[U_m] = \frac{1}{m} \sum_{i=1}^m E[X_i] = \mu
\begin{align*}
V[U_m] &= E[(U_m -\mu)^2] = E\left[\left(\frac{1}{m} \sum_{i=1}^m (X_i-\mu)\right)^2\right] \\
&= \frac{1}{m^2} \left(\sum_{i=1}^m V[X_i] +\sum_{\substack{1 \leq i, j \leq m \\ i\neq j}} \mathrm{Cov}(X_i, X_j)\right) \\
&= \frac{1}{m^2} \left(m \sigma^2 + (m^2 -m) \frac{-\sigma^2}{n-1}\right) \\
&= \frac{\sigma^2}{m}\left(1 -\frac{m-1}{n-1}\right) = \frac{n-m}{n-1}\frac{\sigma^2}{m}
\end{align*}
共分散を計算しないといけないのはキツイ。
Discussion