👌

【#統計01】📐重回帰分析を徹底解説(偏回帰係数、寄与率、F統計量、テコ比、標準化残差、母回帰の信頼区間、予測区間)

2025/04/12に公開

この記事では、目次の内容に沿って、最小二乗法による回帰モデルの導出から、偏回帰係数、回帰分析における説明変動の分解と寄与率、自由度調整済み決定係数、F統計量、外部変数追加時のF検定、ハット行列、テコ比（レバレッジ）、標準化残差、母回帰の信頼区間と予測区間について解説します。

記事内容は、多変量解析法入門(永田靖・棟近雅彦　共著)の第五章を参考にしています。

まず、、なぜこれらの手法が必要なのか

パラメータ推定:
最小二乗法は、モデルの係数（偏回帰係数）をデータから最もよくフィットするように推定する基本的な方法です。これにより、各説明変数が目的変数に与える影響を具体的に理解できます。
説明変動の分解と寄与率:
全体の変動（SST）を、モデルで説明できる部分（SSR）と残差（SSE）に分けることで、どれくらいの変動が説明されているか（寄与率、 $R^2$ ）が明らかになります。
自由度調整済み決定係数:
説明変数の数が増えると無条件に $R^2$ が上がる傾向があるため、モデルの複雑さ（パラメータ数）を補正して真の説明力を評価する必要があります。
F統計量とF検定:
全体としてモデルが有意か、または新たな変数を追加することで説明力が有意に改善されるかを検定するために、F統計量やその検定が用いられます。
ハット行列とテコ比（レバレッジ）:
ハット行列は予測値を算出する際にデザイン行列 $X$ の情報を反映し、対角成分（テコ比）から各観測がどの程度影響力を持つか（外れ値の検出など）を評価できます。
標準化残差:
各観測の残差を、その観測ごとに予想されるばらつきで割ることで、異常な残差（外れ値）を識別しやすくします。
母回帰の信頼区間と予測区間:
これらは、推定された回帰直線をもとに、母集団平均の範囲や新たな観測値が入る範囲を示すことで、予測の不確かさを定量的に評価できます。

これらの手法を統合することで、単に最適な回帰直線を求めるだけでなく、モデルの信頼性、各データ点の影響度、不確実性の評価まで、より実践的で信頼性のある解析が可能になります。

【1. 最小二乗法による回帰モデル：偏回帰係数】

モデルの設定

重回帰モデル（2 つの説明変数を例に）は、各観測 $i$ について

y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2}

と書けます。行列で表すと、

y = X\beta

となります。ここで、

$y$ は目的変数のベクトル
$X$ は説明変数を並べた行列（1 列目はすべて 1 で切片を含む）
$\beta$ は回帰係数ベクトル $(\beta_0, \beta_1, \beta_2)^\top$

予測値と残差

予測値 $\hat{y}_i$ は

\hat{y}_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2}

残差 $e_i$ は

e_i = y_i - \hat{y}_i

行列で書くと

e = y - X\beta

です。

二乗誤差和 (SSE) の最小化

残差ベクトル $e$ の二乗和

\mathrm{SSE} = \| e \|^2 = (y - X\beta)^\top (y - X\beta)

を最小にするように $\beta$ を求めます。

導関数を 0 に置く

$\mathrm{SSE}$ を $\beta$ で微分して 0 とすると、

X^\top X \, \beta = X^\top y

回帰係数の解

$X^\top X$ が可逆（逆行列が存在）と仮定すると、

\beta = (X^\top X)^{-1} X^\top y

が最小二乗法による推定解となります。

[補足] 単回帰 $y = b_0 + b_1 x$ では

b_1 = \frac{\mathrm{Cov}(x, y)}{\mathrm{Var}(x)}

共分散 (Cov(x, y))
- $y$ が $x$ とどれくらい同時に動くかを示す指標です。
- 例： $x$ が高いときに $y$ も高く、 $x$ が低いときに $y$ も低い場合、共分散は正になります。
- 逆に、 $x$ が高いときに $y$ が低い場合、共分散は負になります。
分散 (Var(x))
- $x$ の値が平均の周りでどれだけ散らばっているか（ばらついているか）を表します。
- $x$ の値のばらつきが大きいほど、分散は大きくなります。
$b_1 = \mathrm{Cov}(x, y)/\mathrm{Var}(x)$ の意味
- $b_1$ は、「 $x$ が 1 単位変動したときに、 $y$ がどれだけ変動するか」を表す傾きです。
- 分子の共分散が大きい＝ $x$ と $y$ が強く同調して動く場合、 $x$ の変動に伴い $y$ も大きく動くため、 $b_1$ は大きくなります。
- 分母の分散は、 $x$ のばらつきの大きさを示すので、 $x$ のばらつきが小さいと、同じ共分散でも $b_1$ は大きくなります。
- こうして、 $b_1$ は $x$ のばらつきに対する $y$ の同時変動の割合として解釈できます。

【2. 回帰分析の説明変動の分解と寄与率 ( $R^2$ ) の導出】

各観測値について、

y_i - \bar{y} = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)

と表せます。

ここで、

$y_i - \bar{y}$ は目的変数の全体の偏差
$\hat{y}_i - \bar{y}$ は回帰モデルが説明できた変動（説明変動）
$y_i - \hat{y}_i$ は残差（説明できなかった変動）

全体の変動（SST）は、

\mathrm{SST} = \sum_i (y_i - \bar{y})^2

と書け、これが説明変動（SSR）と残差変動（SSE）に分解されます。

決定係数 ( $R^2$ ) の定義

\mathrm{SSR} = \mathrm{SST} - \mathrm{SSE}

R^2 = \frac{\mathrm{SSR}}{\mathrm{SST}} = 1 - \frac{\mathrm{SSE}}{\mathrm{SST}}

と定義され、モデルが全体の変動のうちどれだけを説明できているかを示します。
これにより、モデルが全体の変動 (SST) のうち、どれだけを説明（SSR）できたか、または残差の変動 (SSE) がどれだけかをもとに 寄与率 を計算できることが示されます。

【3. 自由度調整済み決定係数（Adjusted $R^2$ ）の説明】

回帰分析では、追加の説明変数により $R^2$ が自動的に上昇する傾向があります。これを補正するため、自由度を考慮した調整済み決定係数を使用します。

\mathrm{Adjusted}\; R^2 = 1 - \bigl(1 - R^2\bigr) \times \frac{(n - 1)}{(n - k - 1)}

ここで、

$n$ : 観測数
$k$ : 説明変数の数
$1 - R^2$ は $\mathrm{SSE} / \mathrm{SST}$

この式は、モデルに含まれる変数の数に応じて過剰適合の影響を補正し、実際の説明力をより正確に示します。

[補足]

$n - 1$
観測値 $n$ から平均 $\bar{y}$ を求めるとき、すべての値が自由に変動できるわけではなく、最後の 1 つは平均を満たすために決まっているため、自由度は $n - 1$ となります。

$n - k - 1$
重回帰モデルでは、説明変数 $k$ 個と切片（1 個）の合計 $k+1$ 個のパラメータを推定するので、残差の自由度は $n - (k+1) = n - k - 1$ となります。

【4. F 統計量の計算式とその意味】

$F$ 統計量は、モデルが全体として有意に $y$ の変動を説明しているかを検定する指標です。
単回帰・重回帰における計算式は、

F = \frac{\left(R^2/k\right)}{\left((1 - R^2)/(n - k - 1)\right)}

ここで、

$n$ : 観測数
$k$ : 説明変数の数
$R^2$ : 決定係数

意味

分子は、説明変数 1 自由度あたりの説明された変動（SSR）を示し、
分母は、残差（説明できなかった変動）の 1 自由度あたりの変動（SSE）を示します。
$F$ 値が大きいほど、モデルが有意に $y$ の変動を説明していることが示されます。

【 $x_1$ のみのモデルに $x_2$ を追加する際の $F_0$ 値の導出】

決定係数の変化
- 単回帰（ $x_1$ のみ）の決定係数： $R^2_{\mathrm{reduced}} \approx 0.75$
- 重回帰（ $x_1$ と $x_2$ ）の決定係数： $R^2_{\mathrm{full}} \approx 0.79$
- 追加による増分：
  $\Delta R^2 = R^2_{\mathrm{full}} - R^2_{\mathrm{reduced}} = 0.04$
増分 F 検定の式

F = \frac{\bigl(R^2_{\mathrm{full}} - R^2_{\mathrm{reduced}}\bigr) / q}{\bigl(1 - R^2_{\mathrm{full}}\bigr)/(n - p)}

ここで、

$q = 1$ （追加した変数数）
$n = 8$ （観測数）
$p = 3$ （フルモデルのパラメータ数：切片含む）

$F_0$ の計算

\begin{aligned} F &= \frac{0.04 \div 1}{(1 - 0.79) \div (8 - 3)} \\ &= \frac{0.04}{0.21 \div 5} \\ &= \frac{0.04}{0.042} \\ &\approx 0.95. \end{aligned}

この $F_0$ 値（約 0.95）は、 $x_2$ の追加がモデルの説明力を有意に改善するかどうかを判断するために用いられます。

補足:
モデルの説明できた変動（SSR）と残差変動（SSE）を用いて、
$> F = \frac{\bigl(\mathrm{SSR}_{\mathrm{full}} - \mathrm{SSR}_{\mathrm{reduced}}\bigr)/q}{\mathrm{SSE}_{\mathrm{full}}/(n-p)} >$
という形で、追加変数で説明された余分な変動を、残差変動とその自由度で正規化して比較します。

【5. ハット行列】

ハット行列 $H$ は、回帰分析で実際の値から予測値を導くために使われる行列です。

回帰直線は、

\hat{y} = X\beta

と表されます。
ここで、最小二乗法により求めた回帰係数は

\beta = (X^\top X)^{-1} X^\top y

と与えられるので、 $\beta$ を代入すると、

\hat{y} = X\,(X^\top X)^{-1} X^\top y.

定義

H = X\,(X^\top X)^{-1}\, X^\top

ここで、 $X$ は各観測の説明変数のデータを並べた行列（1列目は切片項としてすべて 1 の列を含む）です。

役割

入力された観測値 $y$ に $H$ をかけると、予測値 $\hat{y}$ が得られます：

\hat{y} = H\, y.

$H$ の対角成分 $h_i = H_{ii}$ は、各観測 $i$ が予測値に与える影響（テコ比、レバレッジ）を表しており、外れ値の判定や影響の強い点の評価に使われます。

意味

ハット行列は、回帰モデルがどのようにしてデータの情報を取り込み、予測を作り出すかを示す「窓」のような役割を持っています。
デザイン行列 $X$ の情報を利用して、各観測点が全体の予測にどの程度影響しているかを一つの行列にまとめたものと考えると分かりやすいです。

【6. テコ比（レバレッジ）】（多変量の場合）

テコ比（レバレッジ）について

単変量回帰の場合
テコ比は次の式で計算されます：
$h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_j (x_j - \bar{x})^2}.$
これは、各観測の $x$ の値が平均からどれだけ離れているかで、そのデータ点が回帰直線に与える影響を示します。
多変量の場合
複数の説明変数があるため、観測ごとの「全体的な離れ具合」を一つの尺度で示す必要があります。
そこで用いるのが マハラノビス距離 という指標です。
具体的には、ハット行列 $H$ の対角成分（テコ比）は
$h_i = H_{ii} = \frac{1}{n} + (x_i - \bar{x})^\top S^{-1}(x_i - \bar{x}),$
と表すことができます。
$(x_i - \bar{x})^\top S^{-1}(x_i - \bar{x})$ は、観測 $x_i$ と全体平均 $\bar{x}$ のマハラノビス距離の二乗に相当します。（ここで、 $S$ は説明変数の共分散行列）

マハラノビス距離について

定義
観測 $i$ の説明変数ベクトルを $x_i$ 、全体の平均を $\bar{x}$ 、共分散行列を $S$ とすると、
$D_m(x_i) = \sqrt{(x_i - \bar{x})^\top S^{-1} (x_i - \bar{x})}.$
意味
マハラノビス距離は、各変数のばらつきや相関を考慮に入れた上で、あるデータ点が全体の中心から「どれだけ離れているか」を測る指標です。
これは通常のユークリッド距離とは異なり、変数の尺度や相関構造を補正しているため、多変量データの「異常度」や「影響力」を評価するのに適しています。

まとめと使い方

単変量では、テコ比は単一変数の離れ具合から直接計算できます。
多変量の場合は、各観測の「離れ具合」をマハラノビス距離で測り、その二乗を加える形で

h_i = \frac{1}{n} + (x_i - \bar{x})^\top S^{-1}(x_i - \bar{x})

と求めます。

これにより、各観測が全体の平均（中心）からどれだけ離れているか（影響力）を定量化でき、外れ値や影響の強いデータ点を特定するのに役立ちます。

計算方法（ハット行列を用いた場合）

H = X\,\bigl(X^\top X\bigr)^{-1}\, X^\top

各観測 $i$ のテコ比は、

h_i = H_{ii} \quad \text{（ハット行列の対角成分）}.

ここで、 $x_i = [1, x_{i1}, x_{i2}, \dots, x_{ik}]^\top$ （1 は切片、 $x_1,\dots, x_k$ は $k$ 個の説明変数）です。

意味・使い方:
テコ比 $h_i$ は、各データ点の説明変数の値が全体の平均からどれだけ離れているか（つまりどれだけ「目立っているか」）を示し、値が大きいほどその観測点は回帰結果に大きな影響（「引っ張る力」）を与える可能性があるため、外れ値や影響の強い点として注意が必要です。

【7. 標準化残差】

計算方法

標準化残差 $r_i$ は、

r_i = \frac{e_i}{\sqrt{V_e}},

ここで、

$e_i$ は観測 $i$ の残差 ( $y_i - \hat{y}_i$ )
$V_e = \frac{S_e}{(n - k - 1)}$
- $S_e$ は残差の合計平方和 (SSE)
- $n$ は全観測数、 $k$ は説明変数の数（切片は含めない）

この式は、 $e_i$ をその観測における誤差の推定ばらつき $\sqrt{V_e}$ で割ることで、残差を全体の標準的なばらつきの尺度で表現しています。

意味・使い方

$V_e$ は、自由度 $(n - k - 1)$ で補正された残差の分散（すなわち誤差の平均二乗誤差）であり、各観測に期待される誤差の大きさを示します。
標準化残差 $r_i$ によって、各データの残差が「通常の範囲」からどれだけ外れているかを比較でき、一般に $|r_i| > 2$ や 3 の場合は外れ値の疑いがあります。

【8. 母回帰の信頼区間 vs. 予測区間】

母回帰の信頼区間

これは、ある $x_0$ における「平均的な（母集団の）応答値」 $\mu_0$ がどの範囲にあるかを示す区間です。
回帰直線が表す母平均（平均応答）に対する不確かさを表しており、データのばらつき、サンプルサイズ、説明変数の影響を考慮して評価されます。
数式は次のようになります：

\mu_0 \in \left[\hat{y}_0 \pm t_{\alpha/2,\, n-p}\; s\; \sqrt{x_0^\top (X^\top X)^{-1} x_0}\right],

ここで,

$\hat{y}_0 = x_0^\top \hat{\beta}$ は $x_0$ における予測値
$s$ は残差標準誤差 ( $s^2 = \mathrm{SSE}/(n-p)$ )
$t_{\alpha/2,\, n-p}$ は自由度 $n-p$ の $t$ 分布の臨界値
$x_0^\top (X^\top X)^{-1} x_0$ は $x_0$ における予測不確かさを反映する部分です。

この区間は、 $x_0$ における多くのデータ点の平均が含まれるため、比較的狭い区間となります。

予測区間

これは、ある $x_0$ において、新たに観測される個々の $y_0$ の値がどの範囲に入るかを示す区間です。
個々の観測値には固有のランダムな誤差（個体差）が含まれるため、予測区間は信頼区間よりも広くなります。
数式は次の通りです：

y_0 \in \left[\hat{y}_0 \pm t_{\alpha/2,\, n-p}\; s\; \sqrt{1 + x_0^\top (X^\top X)^{-1} x_0}\right].

ここで、「1」が追加されているのは、新しい観測値が持つ母平均のばらつきに加えて、個々の誤差成分を反映するためです。

違いのまとめ

信頼区間:
$x_0$ における母集団の平均応答（母回帰）がどの範囲にあるかを示す。
予測区間:
$x_0$ において、次に観測される単一の $y$ の値がどの範囲に入るかを示す。
予測区間は、個々の観測のランダム誤差を含むため、信頼区間より広い。

【9. t 分布を使う理由】

母分散が不明であるため:
モデルでは誤差項の分散 $\sigma^2$ は未知です。そのため、残差から推定される $s^2$ を使用し、標準化統計量は自由度 $n-p$ の $t$ 分布に従います。
自由度の調整:
サンプル $n$ から、回帰で推定に使われたパラメータの数（例えば、切片と説明変数の係数の合計 $p$ ）を引いた自由度 $n-p$ が、誤差分散の推定に用いられるため、区間推定等で $t_{\alpha/2,\, n-p}$ のような $t$ 分布の臨界値を使います。

【10. 予測値の標準誤差の背景】

任意の $x_0$ における予測値は、

\hat{y}_0 = x_0^\top \hat{\beta}.

$\beta$ 推定量の分散

OLS 推定量の分散共分散行列は、

\mathrm{Var}(\hat{\beta}) = s^2 \, (X^\top X)^{-1}.

予測値 $\hat{y}_0$ の分散

$\hat{y}_0$ は $\hat{\beta}$ の線形結合であるため、

\begin{aligned} \mathrm{Var}(\hat{y}_0) &= x_0^\top \, \mathrm{Var}(\hat{\beta}) \, x_0 \\[1mm] &= x_0^\top \left[s^2\, (X^\top X)^{-1}\right] \, x_0 \\[1mm] &= s^2 \, \left[x_0^\top (X^\top X)^{-1} x_0\right]. \end{aligned}

よって、予測値の標準誤差は

s \cdot \sqrt{x_0^\top (X^\top X)^{-1} x_0}.

この結果、任意の $x_0$ における母回帰の信頼区間などを構成する際に、この項が現れます。

以上が、最小二乗法による回帰モデルの導出と、それに関する区間推定、ハット行列、テコ比（レバレッジ）、標準化残差の基本的な解説となります。

【11. 実装例】

データセットの作成

import numpy as np
import statsmodels.api as sm
import pandas as pd

# サンプルデータの定義
x1 = np.array([12, 12, 11, 7, 8, 9, 14, 11])
x2 = np.array([4, 3, 3, 1, 3, 2, 5, 4])
y  = np.array([22, 24, 21, 19, 19, 22, 24, 23])

# 説明変数行列 X の作成（定数項を含む）
X = np.column_stack([np.ones(len(x1)), x1, x2])

重回帰モデルの推定

# statsmodels のOLSを使用して回帰分析
model = sm.OLS(y, X).fit()
print(model.summary())

結果

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.785
Model:                            OLS   Adj. R-squared:                  0.699
Method:                 Least Squares   F-statistic:                     9.137
Date:                Wed, 16 Apr 2025   Prob (F-statistic):             0.0214
Time:                        19:05:34   Log-Likelihood:                -10.139
No. Observations:                   8   AIC:                             26.28
Df Residuals:                       5   BIC:                             26.52
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         13.0140      2.192      5.938      0.002       7.380      18.648
x1             1.0058      0.347      2.903      0.034       0.115       1.897
x2            -0.5841      0.648     -0.902      0.409      -2.249       1.081
==============================================================================
Omnibus:                        0.775   Durbin-Watson:                   2.101
Prob(Omnibus):                  0.679   Jarque-Bera (JB):                0.548
Skew:                           0.146   Prob(JB):                        0.760
Kurtosis:                       1.751   Cond. No.                         65.6
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.


C:\ProgramData\anaconda3\Lib\site-packages\scipy\stats\_stats_py.py:1806: UserWarning: kurtosistest only valid for n>=20 ... continuing anyway, n=8
  warnings.warn("kurtosistest only valid for n>=20 ... continuing "

ハット行列とテコ比（レバレッジ）の計算

# モデルの影響度評価（ハット行列の対角成分がテコ比）
influence = model.get_influence()
hat_values = influence.hat_matrix_diag
print("Hat Values (Leverage):")
print(hat_values)

結果

Hat Values (Leverage):
[0.19626168 0.42056075 0.17640187 0.54088785 0.6635514  0.25116822
 0.47196262 0.27920561]

標準化残差の計算

# 標準化残差（学生化残差とも呼ばれる）
standardized_residuals = influence.resid_studentized_internal
print("Standardized Residuals:")
print(standardized_residuals)

結果

Standardized Residuals:
[-0.76722771  0.80759518 -1.34412552 -0.6392155  -0.48915467  1.17117341
 -0.22185058  1.36336345]

任意の観測値に対する予測と区間推定

# 新たな観測値の定義（定数項を含む）
x0 = np.array([1, 10, 3])

# 予測と区間推定
prediction = model.get_prediction(x0)
prediction_summary = prediction.summary_frame(alpha=0.05)  # 95%信頼区間
print("Prediction Summary for x0 = [10, 3]:")
print(prediction_summary)

結果

Prediction Summary for x0 = [10, 3]:
        mean   mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  21.320093  0.400144       20.29149      22.348697      18.34259   

   obs_ci_upper  
0     24.297597

まず、、なぜこれらの手法が必要なのか

【1. 最小二乗法による回帰モデル：偏回帰係数】

モデルの設定

予測値と残差

二乗誤差和 (SSE) の最小化

導関数を 0 に置く

回帰係数の解

[補足] 単回帰 y = b_0 + b_1 x では

【2. 回帰分析の説明変動の分解と 寄与率 (R^2) の導出】

決定係数 (R^2) の定義

【3. 自由度調整済み決定係数（Adjusted R^2）の説明】

[補足]

【4. F 統計量の計算式とその意味】

【x_1 のみのモデルに x_2 を追加する際の F_0 値の導出】

【5. ハット行列】

定義

役割

意味

【6. テコ比（レバレッジ）】（多変量の場合）

テコ比（レバレッジ）について

マハラノビス距離について

まとめと使い方

計算方法（ハット行列を用いた場合）

【7. 標準化残差】

計算方法

意味・使い方

【8. 母回帰の信頼区間 vs. 予測区間】

母回帰の信頼区間

予測区間

違いのまとめ

【9. t 分布を使う理由】

【10. 予測値の標準誤差の背景】

\beta 推定量の分散

予測値 \hat{y}_0 の分散

【11. 実装例】

Discussion

[補足] 単回帰 $y = b_0 + b_1 x$ では

【2. 回帰分析の説明変動の分解と寄与率 ( $R^2$ ) の導出】

決定係数 ( $R^2$ ) の定義

【3. 自由度調整済み決定係数（Adjusted $R^2$ ）の説明】

【 $x_1$ のみのモデルに $x_2$ を追加する際の $F_0$ 値の導出】

$\beta$ 推定量の分散

予測値 $\hat{y}_0$ の分散