分散分析
分散分析(ANOVA)の概要
1. モデル設定
一元配置分散分析では、複数のグループの平均の差が有意かどうかを検定します。データは次のモデルに従うと仮定します。
-
: 第Y_{ij} 群のi 番目の観測値j -
: 全体の平均\mu -
: 第A_i 群の効果i -
: 誤差項、\epsilon_{ij} \epsilon_{ij} \sim N(0, \sigma^2)
このモデルにおいて、
2. 平方和の分解
分散分析の核心部分は、総平方和(SST)を「群間の平方和(SSA)」と「群内の平方和(SSE)」に分解することです。
-
総平方和(SST: Total Sum of Squares):
- ここで、
は全体平均です。\bar{Y}_{..}
- ここで、
-
群間平方和(SSA: Sum of Squares for Among groups):
- ここで、
は第\bar{Y}_{i.} 群の平均、i はその群のサンプルサイズです。n_i
- ここで、
-
群内平方和(SSE: Sum of Squares for Error):
- これは、各群の観測値と群平均との差の二乗和です。
3. 自由度の計算
-
総平方和の自由度:
(全体の観測数N - 1 から1を引いたもの)N -
群間平方和の自由度:
(群の数k - 1 から1を引いたもの)k -
群内平方和の自由度:
(全体の観測数から群の数N - k を引いたもの)k
4. F値の計算
分散分析におけるF値は、群間の変動と群内の変動の比率を取ることで得られます。
F値は、F分布に従い、これを用いて群間の差が有意かどうかを検定します。
群内平方和 (SSE) の導出と分布
1. 誤差項の分布
観測値
ここで、
2. 群内平方和の定義
群内平方和
これは、各群の観測値とその群の平均との残差の二乗和です。
3. 標準化とカイ二乗分布
誤差項
この標準化された誤差項の二乗和がカイ二乗分布に従います。すなわち、
自由度
群間平方和 (SSA) の導出と分布
1. 群間平方和の定義
群間平方和
これは、各群の平均
2. 群平均の分布
各群の平均
3. 標準化とカイ二乗分布
群平均
したがって、標準化された群間平方和 $ SSA $ は自由度 $ k - 1 $ のカイ二乗分布に従います。
自由度
まとめ
-
群内平方和 (SSE) は、各群内でのデータのばらつきを測定し、標準化された形では自由度
のカイ二乗分布に従います。N - k
-
群間平方和 (SSA) は、群間での平均の差のばらつきを測定し、標準化された形では自由度
のカイ二乗分布に従います。k - 1
- 分散分析のF検定では、群間の変動(SSA)と群内の変動(SSE)の比を取ることで、群間の平均の差が有意かどうかを判断します。この比率はF分布に従います。
この議論により、分散分析における平方和のカイ二乗分布への従属性が導かれ、F分布を用いて仮説検定を行う理論的背景が明確になりました。