Open1

分散分析

shunsockshunsock

分散分析(ANOVA)の概要

1. モデル設定

一元配置分散分析では、複数のグループの平均の差が有意かどうかを検定します。データは次のモデルに従うと仮定します。

Y_{ij} = \mu + A_i + \epsilon_{ij}

  • Y_{ij} : 第 i 群の j 番目の観測値
  • \mu : 全体の平均
  • A_i : 第 i 群の効果
  • \epsilon_{ij} : 誤差項、\epsilon_{ij} \sim N(0, \sigma^2)

このモデルにおいて、Y_{ij} は平均 \mu + A_i、分散 \sigma^2 の正規分布に従うと仮定します。

2. 平方和の分解

分散分析の核心部分は、総平方和(SST)を「群間の平方和(SSA)」と「群内の平方和(SSE)」に分解することです。

  • 総平方和(SST: Total Sum of Squares):
    • ここで、\bar{Y}_{..} は全体平均です。
SST = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{..})^2
  • 群間平方和(SSA: Sum of Squares for Among groups):
    • ここで、\bar{Y}_{i.} は第 i 群の平均、n_i はその群のサンプルサイズです。
SSA = \sum_{i=1}^{k} n_i (\bar{Y}_{i.} - \bar{Y}_{..})^2
  • 群内平方和(SSE: Sum of Squares for Error):
    • これは、各群の観測値と群平均との差の二乗和です。
SSE = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2

3. 自由度の計算

  • 総平方和の自由度N - 1 (全体の観測数 N から1を引いたもの)
  • 群間平方和の自由度k - 1 (群の数 k から1を引いたもの)
  • 群内平方和の自由度N - k (全体の観測数から群の数 k を引いたもの)

4. F値の計算

分散分析におけるF値は、群間の変動と群内の変動の比率を取ることで得られます。

F = \frac{MSA}{MSE} = \frac{SSA / (k - 1)}{SSE / (N - k)}

F値は、F分布に従い、これを用いて群間の差が有意かどうかを検定します。


群内平方和 (SSE) の導出と分布

1. 誤差項の分布

観測値 Y_{ij} は次のように書けます:

Y_{ij} = \mu + A_i + \epsilon_{ij}

ここで、\epsilon_{ij} は独立で平均0、分散 \sigma^2 の正規分布 \epsilon_{ij} \sim N(0, \sigma^2) に従うと仮定します。

2. 群内平方和の定義

群内平方和 SSE は次のように定義されます:

SSE = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2

これは、各群の観測値とその群の平均との残差の二乗和です。

3. 標準化とカイ二乗分布

誤差項 \epsilon_{ij} は分散 \sigma^2 を持つため、これを標準化すると:

\frac{\epsilon_{ij}}{\sigma} \sim N(0, 1)

この標準化された誤差項の二乗和がカイ二乗分布に従います。すなわち、

\frac{SSE}{\sigma^2} \sim \chi^2(N - k)

自由度 N - k は、全体の観測数 N から各群の平均(つまり k 個のパラメータ)を推定したことによって失われる自由度です。


群間平方和 (SSA) の導出と分布

1. 群間平方和の定義

群間平方和 SSA は次のように定義されます:

SSA = \sum_{i=1}^{k} n_i (\bar{Y}_{i.} - \bar{Y}_{..})^2

これは、各群の平均 \bar{Y}_{i.} と全体平均 \bar{Y}_{..} の差の二乗和に、各群のサンプルサイズ n_i を掛けたものです。

2. 群平均の分布

各群の平均 \bar{Y}_{i.} は次の正規分布に従います:

\bar{Y}_{i.} \sim N(\mu + A_i, \frac{\sigma^2}{n_i})

3. 標準化とカイ二乗分布

群平均 \bar{Y}_{i.} を標準化すると、標準正規分布に従うことがわかります。

\frac{\bar{Y}_{i.} - \bar{Y}_{..}}{\sigma / \sqrt{n_i}} \sim N(0, 1)

したがって、標準化された群間平方和 $ SSA $ は自由度 $ k - 1 $ のカイ二乗分布に従います。

\frac{SSA}{\sigma^2} \sim \chi^2(k - 1)

自由度 k - 1 は、全体の平均 \bar{Y}_{..} を基に k 群の平均の差を考えているため、1つの自由度が失われた結果です。


まとめ

  • 群内平方和 (SSE) は、各群内でのデータのばらつきを測定し、標準化された形では自由度 N - k のカイ二乗分布に従います。
\frac{SSE}{\sigma^2} \sim \chi^2(N - k)
  • 群間平方和 (SSA) は、群間での平均の差のばらつきを測定し、標準化された形では自由度 k - 1 のカイ二乗分布に従います。
\frac{SSA}{\sigma^2} \sim \chi^2(k - 1)
  • 分散分析のF検定では、群間の変動(SSA)と群内の変動(SSE)の比を取ることで、群間の平均の差が有意かどうかを判断します。この比率はF分布に従います。

この議論により、分散分析における平方和のカイ二乗分布への従属性が導かれ、F分布を用いて仮説検定を行う理論的背景が明確になりました。