📌

【Juliaで因果推論】Appendix: 回帰分析で使う数学

2022/05/27に公開

和のオペレーター (summuation operator)

複数の変数の $\{X_i: i=1,\ldots,N\}$ を足しあわせるとき， $X_{i=1} + X_{i=2} + \cdots + X_{i=N}$ と表記するのは煩わしいので，和のオペレーター(summuation operator) $\sum$ を使って

\sum_{i=1}^N X_i = X_1 + X_2 + \cdots + X_N

とします．また，定義通りですが，和のオペレーターから以下の特性が導かれます．

任意の定数 $c$ に対し．

\begin{align*} \sum_{i=1}^N c & = Nc \end{align*}

Proof:

\begin{align*} \sum_{i=1}^N c = \overbrace{c + c + \cdots + c}^{N個} = Nc \end{align*}

任意の定数 $c$ に対し．

\begin{align*} \sum_{i=1}^N c X_i & = c \sum_{i=1}^N X_i \end{align*}

Proof:

\begin{align*} \sum_{i=1}^N c = cX_1 + cX_2 + \cdots + cX_N = c(X_1 + X_2 + \cdots + X_N) = c \sum_{i=1}^N X_i \end{align*}

$\sum_{i=1}^N$ で動いていくノーテーション $i$ が付いている変数 $X_i$ は $\sum_{i=1}^N$ の外には出られない感覚です．

複数の変数のペア $\{(X_i, Y_i): i=1,\ldots,N\}$ ，任意の定数 $a, b$ に対し．

\begin{align*} \sum_{i=1}^N [a X_i + b Y_i] & = a \sum_{i=1}^N X_i + b \sum_{i=1}^N Y_i \end{align*}

サンプルデータ $\{X_i: i=1,\ldots,N\}$ の標本平均 $\bar{X}$ は和のオペレーターを使うと，

\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i

と表すことができます．

また，和のオペレーターの特性を用いると，次のような関係が導かれます．

\begin{align*} \sum_{i=1}^N [X_i - \bar{X_i}] & = 0 \\ \\ \sum_{i=1}^N [X_i - \bar{X_i}]^2 & = \sum_{i=1}^N X_i [X_i - \bar{X_i}] \\ & = \sum_{i=1}^N X_i^2 + N (\bar{X_i})^2 \\ \\ \sum_{i=1}^N [X_i - \bar{X_i}][Y_i - \bar{Y_i}] & = \sum_{i=1}^N X_i [Y_i - \bar{Y_i}] \\ & = \sum_{i=1}^N [X_i - \bar{X_i}]Y_i \\ & = \sum_{i=1}^N X_i Y_i + N (\bar{X_i}\bar{Y_i}) \\ \end{align*}

この関係は線形回帰モデルのパラメータ推定に使います．

$\{X_1, \dots, X_N\}$ を期待値 $\mu$ の $\text{i.i.d.}$ ^[1]に従う確率変数とする．このとき以下が成り立つ．

\frac{1}{N}\sum_{i=1}^N X_i \xrightarrow{p} \mu

$\text{plim}$ を使って表記すれば

\text{plim} \left( \frac{1}{N}\sum_{i=1}^N X_i \right) = \text{plim} \left( \bar{X} \right) = \mu

雑に言えば，「母集団からのランダムサンプリングでサンプルサイズが無限大なら，推定量である標本平均は真の値である母集団の平均パラメータ $\mu$ をドンピシャ(確率1)で当てる」ということです．大数の法則は推定量が一致性を持つことの証明に使います．

脚注