統計検定1級程度の事項まとめ
はじめに
2023年の統計検定1級、統計数理、統計応用(理工学)に両分野最優秀成績賞で合格しました。
対策期間中に用いていたまとめノートを公開しますので、よければ参考にしてください。ただこの試験、あまり内容を暗記することにこだわるより過去問の考え方に慣れることと大学教養レベルの数学的操作を自在に行えるように練習することの方が大切だと思いますのでその点ご留意ください。
注意事項
- 日本統計学会公式の参考書をもとにしています
- 公式の証明を一通り理解した後の復習用です(証明は殆ど書いていません)
- 覚えやすさに重きを置いて雑にまとめています、正確性は保証できません
確率
- 確率母関数:非負離散Xに対し、
G_X(t)=E[t^X]=\sum_x{P(X=x)t^x} P(X=x)=\dfrac{G_X^{(x)}(0)}{x!} -
のm階微分はE[t^x] E[X(X-1)...(X-m+1)t^{X-m}] -
、特にG_X^{(m)}(1)=E[X(X-1)...(X-m+1)] G_X^{(1)}(1)=E[X]
- モーメント母関数:
M_X(t)=E[e^{tX}] M_X^{(m)}(0)=E[X^m]
- 中心モーメント:1次は
、高次はμ=E[X] E[(X-μ)^t] - 2次中心モーメント:分散
- 3次中心モーメント:標準偏差の3乗で割ると歪度(正規分布で0)
- 4次中心モーメント:標準偏差の4乗で割ると尖度(正規分布で3)
- 確率変換
の分布がgiven、X_1,...X_n で1 \le i \le m \le n のとき、Y_i=φ_i(X_1,...,X_n) の分布Y_1,...,Y_m - 逆変換を考えられるよう、
を適当に導入Y_{m+1},...,Y_{n} -
となるX_i=ψ_i(Y_1,...,Y_n) を求めるψ_i(1 \le i \le n) -
で1 \le i \le n とするh_i=ψ_i(y_1,...,y_n) -
より、f_{Y_1,...,Y_n}(y_1,...,y_n)dy_1,...,dy_n=f_{X_1,...,X_n}(h_1,...,h_n)dh_1,...,dh_n f_{Y_1,...,Y_n}(y_1,...,y_n)=f_{X_1,...,X_n}(h_1,...,h_n)\left|\dfrac{\partial (h_1,...,h_n)}{\partial (y_1,...,y_n)}\right| -
を周辺化してf_{Y_1,...,Y_n}(y_1,...,y_n) を求めるf_{Y_1,...,Y_m}(y_1,...,y_m)
- 逆変換を考えられるよう、
- チェビシェフの不等式:εより外にいる確率はεの2乗反比例以下
P(|Z-E[Z]| \ge εσ) \le \dfrac{1}{ε^2}
- 条件付き期待値:
E_X[X]=E_Y[E_X[X|Y]] の期待値は、各Yに対するXの期待値をYで表した式のYについての期待値X -
がパラメタ付き確率分布をもち、このパラメタの分布がX で表されるときに用いるY
- 条件付き分散:
V_X[X]=E_Y[V_X[X|Y]]+V_Y[E_X[X|Y]] -
の分散は、各Yに対するXの分散の期待値と期待値の分散の和X - 「全分散は群内分散の期待値と群間分散の和」
-
分布
-
超幾何分布:二項分布の有限バージョン。
個のうちN 個が当たり。M 個取り出したときの当たりの数。n -
とするとp=\dfrac{M}{N} は復元抽出と同じE[X] 、np はV[X] のnp(1-p) 倍\dfrac{N-n}{N-1}
-
-
負の二項分布:ベルヌーイ試行での
回成功するまでの失敗回数 の分布。r が1のとき幾何分布。r P(X=x)={}_{x+r-1} C_{x}p^rq^x -
、E[X]=r\dfrac{q}{p} V[X]=r\dfrac{q}{p^2} G_X(s;r,p)={ \left\{ \dfrac{p}{1-qs} \right\} }^r
-
ガンマ分布
f(x;α,β)=\dfrac{β^α}{Γ(α)}x^{α-1}\mathrm{exp}(-βx) M(t;α,β)=\left(\dfrac{β}{β-t}\right)^α
-
ベータ分布
f(x;α,β)=\dfrac{1}{Β(α,β)}x^{α-1}(1-x)^{β-1} Γ(α)Γ(β)=Γ(α+β)Β(α,β)
-
コーシー分布:
の連続一様分布に従う\left[-\dfrac{π}{2},\dfrac{π}{2}\right] をX で変換したY=\mathrm{tan}X Y f(x)=\dfrac{1}{π(x^2+1)}
推定
- 十分推定量:密度関数をパラメタ依存と非依存に分けたとき、依存側の
の関数(分解定理)x - Tが十分統計量⇔
⇔f(x;θ)=h(x)g(T(x);θ) P(X=x|T(X)=t,θ)=P(X=x|T(X)=t)
- Tが十分統計量⇔
- ラオブラックウェル推定量:
がδ(X) 推定量、θ がT 十分推定量のときθ δ_1(T)=E[δ(X)|T] -
のδ_1(T) との平均二乗誤差は、θ のδ(X) との平均二乗誤差以下θ -
は十分よりT はE[δ(X)|T] によらないため、計算可能θ - 「十分推定量で条件づけた推定量の期待値は、元の推定量よりよく、かつ計算可能」
-
- 尤度関数:パラメタ
に対してgivenな実現値θ が得られる確率を表すx の関数θ L(θ) -
モーメント法:真の中心モーメントから真のパラメタを求める式に標本モーメントを代入し推定
-
の式からμ_i=ψ(θ_1,...,θ_m) を求めるθ_i=φ(μ_1,...,μ_m) -
、\hat{μ}_1=\bar{X} を計算\hat{μ}_i=\dfrac{1}{n}\sum{(X_j-\bar{X})^i} -
により推定量を得る\hat{θ}_i=φ(\hat{μ}_1,...,\hat{μ}_m)
-
-
有効スコア関数:対数尤度
を\mathrm{log}{L(θ)} で微分したθ \mathrm{V}(x,θ) \mathrm{V}(x,\hat{θ})=0 E[\mathrm{V}(X,θ)]=0 E[g(X)\mathrm{V}(X,θ)]=\dfrac{\partial}{\partial θ}E[g(X)]
-
フィッシャー情報量
:対数尤度をJ_n(θ) で微分した有効スコア関数の分散θ J_n(θ)=V[\mathrm{V}(X,θ)]=-E\left[\dfrac{{\partial}^2}{{\partial θ}^2}\mathrm{log}{L(θ)}\right]
- 不偏推定量:
となるE[\hat{θ}]=θ \hat{θ} -
=E[(\hat{θ}-θ)^2]=(E[\hat{θ}]-θ)^2+V[\hat{θ}] V[\hat{θ}] - 一様最小分散不偏推定量:任意の
に対しθ が最小となる不偏推定量V[\hat{θ}] \hat{θ} -
不偏推定量は、非線形変換を行うと不偏性は維持されない(
は{\hat{θ}}^2 の不偏推定量でない)θ^2
-
- 有効推定量:クメールラオの下限を達成している不偏推定量
- クメールラオの下限:
\displaystyle V[\hat{θ}] \ge \dfrac{1}{J_n(θ)} - 「不偏推定量の分散の下限はフィッシャー情報量の逆数」
-
でスケーリング:\sqrt{n} \displaystyle E[\{\sqrt{n}(\hat{θ}_n-θ)\}^2] \ge \dfrac{n}{J_n(θ)} \ge \dfrac{1}{J_1(θ)} - 有効推定量は一様最小分散不偏推定量
- クメールラオの下限:
- 最尤推定量
:尤度関数\hat{θ}^{ML} を最大化するL(θ) θ - パラメタ変換の不変性:同じ分布ならパラメタによる表し方が異なっても最尤推定量は同じ
- 最尤推定量は適当条件下で漸近正規:
\displaystyle\sqrt{n}(\hat{θ}^{ML}_n-θ)\overset{\text{d}}{\sim} N\left(0,\dfrac{1}{J_1(θ)}\right) - 最尤推定量は適当条件下で漸近有効:
\displaystyle \lim_{n \to \infty}{V[\sqrt{n}(\hat{θ}^{ML}_n-θ)]}=\dfrac{1}{J_1(θ)} - 「最尤推定量は漸近的に期待値
、分散フィッシャー情報量の逆数の正規分布に従う」θ
- 推定量の相対効率:不偏推定量の分散の逆数の比
- 不偏推定量でない場合への拡張:二乗誤差期待値の逆数比
- 一致推定量:標本サイズ
の極限で、推定量n が真の値\hat{θ}_n に一致θ - 赤池情報量基準AIC:AICはモデル選択の基準で、負の対数尤度と
の次元数の和の2倍θ -
が最小のモデルを選択AIC=-2\sum{\mathrm{log}{f(X_i;\hat{θ}^{ML})}}+2dim(θ)
-
- KL情報量:分布の差の程度を表す量で、非対称。
\displaystyle KL(f||g)=\int{f(x)\mathrm{log}{\dfrac{f(x)}{g(x)}}}\ge 0
- デルタ法:漸近分散既知の推定量
に対し、\hat{θ}_n の漸近分散を求める方法g(\hat{θ}_n) - 定理:真の値
としてθ^{*} のとき、\dfrac{\partial}{\partial θ}g(θ^{*})\neq 0 \sqrt{n}(\hat{θ}_n-θ^{*})\overset{\text{d}}{\sim}N(0,σ^2)\Rightarrow \sqrt{n}(g(\hat{θ}_n)-g(θ^{*}))\overset{\text{d}}{\sim}N\left(0,σ^2\left({\dfrac{\partial}{\partial θ}g(θ^{*})}\right)^2\right) - 「平均
の漸近正規なら0 で変換しても漸近正規であり、分散はg のg での微分係数二乗倍」θ^*
- 定理:真の値
- フィッシャーのz変換:相関係数の区間推定法。標本相関係数はz変換すると近似的に正規
ζ(r)=\dfrac{1}{2}\mathrm{log}\dfrac{1+r}{1-r} -
を標本相関係数、r を真の相関係数とすると、ρ ζ(r)\sim N\left(ζ(ρ),\dfrac{1}{n-3}\right)
検定
- 一様最強力検定:有意水準
の検定α の中で、givenな対立仮説の中のどの場合が真の状態であっても他の任意の検定より検出力が大きくなる検定δ^* - ある特定の対立仮説について検出力最大の時、最強力検定
- ネイマン-ピアソンの基本定理
- 定理:
のとき、実現値H_0:θ=θ_0, H_1:θ=θ_1 を棄却する確率x が以下のようになる第一種誤り確率αの検定は、有意水準δ(x) の最強力検定α δ(x)=\begin{cases}1, & \dfrac{f(x;θ_1)}{f(x;θ_0)}>c \\r, & \dfrac{f(x;θ_1)}{f(x;θ_0)}=c \\0, & \dfrac{f(x;θ_1)}{f(x;θ_0)}<c \end{cases} - 「帰無仮説と対立仮説の尤度の比で閾値を設けた確率化検定は最強力になる」
- 求めた検定が
に依存しない場合、一様最強力検定θ_1
- 定理:
- 片側検定の一様最強力検定:
とするH_0:θ \le θ_0, H_1:θ > θ_0 -
がf(x;θ) に関し単調尤度比を持つ:任意のT(x) でθ_1,θ_2 と書けて、かつ\dfrac{f(x;θ_2)}{f(x;θ_1)}=g(T(x);θ_1,θ_2) がg(t;θ_1,θ_2) に対し単調増加t - 定理:
の密度関数X がf(x;θ) に関し単調尤度比を持つとき、棄却確率T(x) が以下のようになる第一種誤り確率δ(x) の検定は、有意水準αの一様最強力検定α δ(x)=\begin{cases}1, & T(x)>c \\r, & T(x)=c \\0, & T(x)<c \end{cases} - 「尤度比単調増加になるT(x)の値で閾値を設けた片側検定は一様最強力になる」
-
-
不偏検定:棄却すべき時の棄却確率が必ず有意水準以上となる検定
- 対立仮説の中のどの場合が真の状態であっても、棄却確率が有意水準以上となる
- 一様最強力不偏検定:不偏検定に検定の範囲を限定したときの一様最強力検定
- 指数型分布:密度関数が
となる分布f(x;θ)=g(θ)h(x)\mathrm{exp}(η(θ)T(x)) - 正準形指数型分布:
となる分布η(θ)=θ
- 正準形指数型分布:
- 両側検定の一様最強力不偏検定:正準形指数型分布に対し、
とするH_0:θ=θ_0, H_1:θ \neq θ_0 - 定理:標本
に対し、x_1,...x_n とするとき、棄却確率\bar{T}(x)=\dfrac{1}{n}\sum{T(x_i)} が以下のようになる第一種誤り確率δ(x) の不偏検定は、有意水準αの一様最強力不偏検定α δ(x)=\begin{cases}1, & \bar{T}(x)<a,b<\bar{T}(x) \\r_a, & \bar{T}(x)=a \\r_b, & \bar{T}(x)=b \\0, & a\le\bar{T}(x)\le b \end{cases} - 「正準形指数型分布のT(x)の標本平均で閾値を設けた両側検定は一様最強力不偏になる」
- 定理:標本
- 尤度比検定:帰無仮説
に対する対立仮説H_0 での上限尤度の比が閾値以上なら棄却H_1 - 尤度比
として、棄却域L=\dfrac{\mathrm{sup}_{H_1} f(x;θ)}{\mathrm{sup}_{H_0} f(x;θ)} 。cの値を有意水準αに合わせて正確に決めることは一般には困難L>c のもとで対数尤度比の2倍はH_0 とH_1 の自由度の差pをもつχ二乗分布に近似的に従うH_0 -
のときH_0 を用いれば有意水準αの検定を得る2\mathrm{log}L\overset{\text{d}}{\sim}χ^2(p)
- 尤度比
- ワルド検定:
のときの近似的検定H_0:θ=θ_0, H_1:θ \neq θ_0 W=(\hat{θ}^{ML}-θ_0)^2J_n(\hat{θ}^{ML})\overset{\text{d}}{\sim}χ^2(1) - 最尤推定量をもとにした二乗誤差とフィッシャー情報量の積は自由度
の1 二乗分布に従うχ
- スコア検定:
のときの近似的検定H_0:θ=θ_0, H_1:θ \neq θ_0 R=\dfrac{(\mathrm{V}(x,θ_0))^2}{J_n(θ_0)}\overset{\text{d}}{\sim}χ^2(1) - スコア関数の二乗をフィッシャー情報量で割ると自由度
の1 二乗分布に従うχ
- 二項分布の正確な両側検定:ベルヌーイ分布は指数型分布なので、一様最強力不偏検定が可能
-
とするY_i \sim B(1,p)、X \sim B(n,p) f(y;p)=p^y{(1-p)}^{1-y}=(1-p) \left( {\dfrac{p}{1-p}} \right)^y = (1-p) \mathrm{exp} \left( y \mathrm{log}\left( \dfrac{p}{1-p} \right)\right) -
とおけば正準形とみなせる。よってθ=\mathrm{log}\left( \dfrac{p}{1-p} \right) より、T(y)=y \bar{T}(x)=\dfrac{x}{n} - 結局、Xの値に対し閾値を設けた確率化検定を行うだけ
-
- 二項分布のパラメタ同等性の検定:
X_1\sim B(n_1,p_1),X_2\sim B(n_2,p_2)、H_0:p_1=p_2=p - 帰無仮説の下で正規近似:
\dfrac{X_i-n_ip}{n_i} \sim N(0,\dfrac{p(1-p)}{n_i}) -
を用いて近似し、検定を行うp \simeq \dfrac{x_1+x_2}{n_1+n_2}
- 帰無仮説の下で正規近似:
- ポアソン検定:
X_i \sim Po(λ) (1 \le i \le n) -
より、E[X_i]=V[X_i]=λ を用いる(n十分大)\sum_i{X_i} \sim N(nλ,nλ)
-
- ポアソン分布のパラメタ同等性の検定:
X_1\sim Po(λ_1),X_2\sim Po(λ_2)、H_0:λ_1=λ_2=λ - それぞれの標本平均の平方根の差の絶対値は正規分布に近似的に従う(平方根変換)
-
とすると、帰無仮説のもとで近似的に以下が成立する(?)\bar{x}_i=\dfrac{1}{n_i}\sum_i{x_i} \sqrt{x_1}-\sqrt{x_2} \sim N\left( 0,\dfrac{1}{4}\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)\right)
- 多項分布の検定:各カテゴリに属する確率
とし、p_i H_0:p_i=p_i(θ) - 帰無仮説のもとで
を最尤推定し、期待度数をθ とする。\hat{x}_i=np_i(\hat{θ}^{ML}) - カテゴリを
種類、パラメタk の自由度がhのとき、以下が成り立つθ W=\sum_i{\dfrac{(x_i-\hat{x}_i)^2}{\hat{x}_i}} \sim χ^2(k-h-1) パラメタを最尤推定、期待度数との誤差二乗を期待度数で割った総和はχ二乗分布に従うH_0
- 帰無仮説のもとで
分散分析
水準 | 観測値 | 標本平均 |
---|---|---|
|
|
|
- 一元配置分散分析:
:「各水準の母平均に差がない」を検定H_0 - 級間変動(各級平均と全平均の二乗誤差):
S_A=\sum_i{n_i(\bar{x}_{i.}-\bar{\bar{x}})^2} - 残差平方和(各級での偏差二乗の総和):
S_e=\sum_i{\sum_j{(x_{ij}-\bar{x}_{i.})^2}} - 全変動(各値と全平均の差の二乗和):
が成立S_T=\sum_i{\sum_j{(x_{ij}-\bar{\bar{x}})^2}}=S_A+S_e - 自由度は
φ_T=\sum{n_i}-1,φ_A=a-1,φ_e=φ_T-φ_A -
のもとでH_0 はχ二乗分布に従うV_A=\dfrac{S_A}{φ_A},V_e=\dfrac{S_e}{φ_e} -
が大きいときV_A を棄却したいので、H_0 を用いてF検定F=\dfrac{V_A}{V_e} - 「
のもと、級間変動と残差平方和は自由度で割ればH_0 に従うので、比でF検定」χ^2
- 級間変動(各級平均と全平均の二乗誤差):
水準 | 平均 | |
---|---|---|
|
|
|
平均 |
- 二元配置分散分析:A,Bそれぞれで
:「各水準の母平均に差がない」を検定H_0 - 級間変動:
S_A=\sum_i{b(\bar{x}_{i.}-\bar{\bar{x}})^2},S_B=\sum_i{a(\bar{x}_{.j}-\bar{\bar{x}})^2} - 残差平方和:
S_e=\sum_i{\sum_j{(x_{ij}-\bar{x}_{i.}-\bar{x}_{.j}+\bar{\bar{x}})^2}} - 全変動(一元配置と同様):
S_T=S_A+S_B+S_e - 自由度は
φ_T=ab-1,φ_A=a-1,φ_B=b-1,φ_e=φ_T-φ_A-φ_B -
のもとでH_0 はχ二乗分布に従うV_A=\dfrac{S_A}{φ_A},V_B=\dfrac{S_B}{φ_B},V_e=\dfrac{S_e}{φ_e} -
を用いてF検定F_A=\dfrac{V_A}{V_e},F_B=\dfrac{V_B}{V_e} - 「一元配置と同様のF検定を各因子で行う」
- 級間変動:
水準 | 平均 | |
---|---|---|
|
|
|
平均 |
- 繰り返しのある二元配置分散分析:各水準で複数回データを取り、交互作用の有無を分析
- A間平方和,B間平方和:
S_A=\sum_i{br(\bar{x}_{i..}-\bar{\bar{x}})^2},S_B=\sum_j{ar(\bar{x}_{.j.}-\bar{\bar{x}})^2} - A×B間平方和:
S_{A×B}=\sum_i{\sum_j{r(x_{ij.}-\bar{x}_{i..}-\bar{x}_{.j.}+\bar{\bar{x}})^2}} - AB間平方和:
S_{AB}=\sum_i{\sum_j{\sum_k{ r(x_{ij.}-\bar{\bar{x}})^2 }}} = S_A + S_B + S_{A×B} - 残差平方和:
S_e=\sum_i{\sum_j{\sum_k{(x_{ijk}-\bar{x}_{ij.})^2}}} - 全変動:
S_T=\sum_i{\sum_j{\sum_k{ (x_{ijk}-\bar{\bar{x}})^2 }}}=S_{AB}+S_e - 自由度は
(φ_T=abr-1,φ_{AB}=ab-1,φ_A=a-1,φ_B=b-1 は差分)φ_e,φ_{A×B} - 帰無仮説のもと、
はχ二乗分布に従うV_A=\dfrac{S_A}{φ_A},V_B=\dfrac{S_B}{φ_B},V_{A×B}=\dfrac{S_{A×B}}{φ_{A×B}},V_e=\dfrac{S_e}{φ_e} -
を用いてF検定F_A=\dfrac{V_A}{V_e},F_B=\dfrac{V_B}{V_e},F_{A×B}=\dfrac{V_{A×B}}{V_e} - 「各級間変動を求めた後、
とS_{A×B} を差分で計算し、F検定に持ち込む」S_{e}
- A間平方和,B間平方和:
水準 | 観測値 | 平均 |
---|---|---|
|
|
|
- 共分散分析:カテゴリごとに線形回帰
でモデル化y_{ij}=μ+α_i+β_{i}x_{ij}+ε_{ij} -
:各水準の傾きH_{01} は全て等しい、β_i :各水準の傾きは等しく、切片H_{02} は全てα_i 0 - 残差平方和
S=\sum_i{\sum_j{(y_{ij}-(μ+\hat{α}_{i}+\hat{β}_{i}x_{ij}))^2}} - 無仮定のとき:
\hat{β}_i=\dfrac{\sum_j{(x_{ij}-\bar{x}_{i.})(y_{ij}-\bar{y}_{i.})}}{\sum_j{(x_{ij}-\bar{x}_{i.})^2}}, μ+\hat{α}=\bar{y}_{i.}-\hat{β}_i\bar{x}_{i.} -
のとき:H_{01} \hat{β}=\dfrac{\sum_i{\sum_j{(x_{ij}-\bar{x}_{i.})(y_{ij}-\bar{y}_{i.})}}}{\sum_i{\sum_j{(x_{ij}-\bar{x}_{i.})^2}}}, μ+\hat{α}=\bar{y}_{i.}-\hat{β}\bar{x}_{i.} -
のとき:H_{02} \hat{β}=\dfrac{\sum_i\sum_j{(x_{ij}-\bar{\bar{x}})(y_{ij}-\bar{\bar{y}})}}{\sum_i\sum_j{(y_{ij}-\bar{\bar{y}})^2}}, μ=\bar{y}-\hat{β}\bar{\bar{x}} - 各仮定に対し、残差平方和は「
偏差x 偏差の積総和をx偏差の二乗総和で割る」y - 無仮定残差平方和を
,傾き一様残差平方和をS_e ,共通回帰残差平方和をS_w S_t :一様仮定により増加した誤差の評価S_r=S_w-S_e, S_b=S_t-S_w - 自由度は
(φ_e=ar-2a,φ_w=ar-(a+1),φ_t=ar-2 は差分)φ_r,φ_b - 帰無仮説
のもと、H_01,H_02 はχ二乗分布に従うV_r=\dfrac{S_r}{φ_r},V_e=\dfrac{S_e}{φ_e},V_b=\dfrac{S_b}{φ_b},V_w=\dfrac{S_w}{φ_w} -
を用いてF検定F_1=\dfrac{V_r}{V_e},F_2=\dfrac{V_b}{V_w} - 「各仮定の前後で最小残差平方和を求め、誤差増分と仮定前の比でF検定」
-
分割表
- 分割表:2次元で各水準に対応する度数をまとめた表
水準 | 合計 | |
---|---|---|
|
|
|
合計 |
水準 | 合計 | |
---|---|---|
|
|
|
合計 |
-
独立性の検定(χ二乗検定):データが十分多いとき、
:H_0 とA が独立B - 期待度数:
t_{ij}=\dfrac{T_{i.}T_{.j}}{T} -
において、H_0 χ^2=\sum_i{\sum_j{\dfrac{(x_{ij}-t_{ij})^2}{t_{ij}}}}\sim χ^2((a-1)(b-1)) - 「期待度数との差の二乗を期待度数で割った値の総和を用いてχ二乗検定」
- 2×2のとき:式変形により
χ^2=\dfrac{T(x_{11}x_{22}-x_{12}x_{21})^2}{T_{1.}T_{2.}T_{.1}T_{.2}} - イェーツの補正(2×2):
χ^2_0=\dfrac{T\left( \mathrm{max}\left( 0,|x_{11}x_{22}-x_{12}x_{21}|-\dfrac{T}{2}\right) \right)^2}{T_{1.}T_{2.}T_{.1}T_{.2}}
- 期待度数:
-
独立性の検定(フィッシャー検定):データが少ないとき、
:H_0 とA が独立B - 周辺分布を固定したときのある分布
の観測確率を\bm{y}=y_{11},...,y_{ab} とする。P'(\bm{y}) - 2×2のとき(超幾何分布):
P'(\bm{y})=\dfrac{ {}_{T_{1.}}{C}_{y_{11}}{}_{T_{2.}}{C}_{y_{21}} }{ {}_{T}{C}_{T_{.1}} }=\dfrac{ T_{1.}!T_{2.}!T_{.1}!T_{.2}! }{ T!y_{11}!y_{12}!y_{21}!y_{22}! } - a×bのとき:
P'(\bm{y})=\dfrac{ \prod_i{T_{i.}!}\prod_j{T_{.j}!} }{ T!\prod_i{\prod_j{y_{ij}!}} } - ある表の観測確率は「周辺階乗の総積を総和階乗と各値階乗総積で割る」
-
実現分布のP値=「実現分布より極端な分布
に対する\bm{y} の総和」P'(\bm{y}) - 2×2の片側:
の表(t_{11}-x_{11})(x_{11}-y_{11}) \ge 0 - 2×2の両側:期待度数からの乖離
が実現分布より大きい表|y_{11}y_{22}-y_{12}y_{21}| - a×bの片側:任意の
で、(i,j) の表(t_{ij}-x_{ij})(x_{ij}-y_{ij}) \ge 0 - a×bの両側:片側の2倍
- 2×2の片側:
- 周辺分布を固定したときのある分布
水準 | 合計 | |
---|---|---|
|
|
|
合計 |
-
対応のある分割表:縦軸と横軸の水準に対応関係がある分割表、異なる条件で同じ値を調べた度数
-
マクネマー検定:データが十分多いとき、
:条件H_0 と1 の違いは結果2 を変化させないA -
:条件x_{ij} のもとでは水準1 、条件A_{i} のもとでは水準2 A_{j} -
には興味がなく、x_{11}, x_{22} に偏りがあるか検定(偏りがあればx_{12}とx_{21} 棄却)H_0 - 期待度数
t_{12}=t_{21}=\dfrac{x_{12}+x_{21}}{2} χ^2=\dfrac{(x_{12}-t_{12})^2}{t_{12}}+\dfrac{(x_{21}-t_{21})^2}{t_{21}}=\dfrac{(x_{12}-x_{21})^2}{x_{12}+x_{21}}\sim χ^2(1) - イェーツの補正:
χ^2_0=\dfrac{(max(0,|x_{12}-x_{21}|-1))^2}{x_{12}+x_{21}}\sim χ^2(1) - 「非対角成分の偏りの有無を、度数の平均を期待度数としてχ二乗検定」
-
-
母比率の検定:データが少ないとき、
:条件H_0 と1 の違いは結果2 を変化させないA - ケース数
がそれぞれに母比率N=x_{12}+x_{21} で分配されているか検定\dfrac{1}{2} - 「分配の偏りが実現分布より極端な場合の確率の総和」
\displaystyle P=\sum_{i=0}^{\mathrm{min}(x_{12},x_{21})}{{}_{N}C_{i} \left( \dfrac{1}{2} \right)^N } - 両側検定の場合は上式の
をP 倍する2
- ケース数
回帰分析
- 線形単回帰:
に対し(x_{1},y_{1}),...,(x_{n},y_{n}) y_i=α+βx_{i}+ε_{i} S_{xx}=\sum_i{(x_{i}-\bar{x})^2}, S_{xy}=\sum_i{(x_{i}-\bar{x})(y_{i}-\bar{y})}, S_{yy}=\sum_i{(y_{i}-\bar{y})^2} \hat{β}=\dfrac{S_{xy}}{S_{xx}}, \hat{a}=\bar{y}-\hat{β}\bar{x}, \hat{y}_i=\hat{α}+\hat{β}x_i - 「
最小化の傾きの推定は、S_e 偏差x 偏差の積総和をy 偏差二乗和で割る」x - 「全変動
=回帰変動S_{yy} +残差平方和S_R 」S_e S_e=\sum_i{(y_i-\hat{α}-\hat{β}x_i)^2}=\sum_i{\left((y_i-\bar{y})-\dfrac{S_{xy}}{S_{xx}}(x_i-\bar{x}) \right)^2}=S_{yy}-\dfrac{S^2_{xy}}{S_{xx}} S_{R}=\sum_i{(\hat{y}_i-\bar{y})^2}=\dfrac{S^2_{xy}}{S_{xx}} - 決定係数:
R^2=\dfrac{S_{R}}{S_{yy}}=ρ^2 - 「決定係数は全変動に対する回帰変動の割合で、相関係数の二乗に一致」
- 自由度は
φ_{yy}=n-1, φ_{e}=n-2, φ_{R}=1 - 帰無仮説
のもとで、β=0 はχ二乗分布に従うV_R=\dfrac{S_R}{φ_R}, V_e=\dfrac{S_e}{φ_e} -
でF検定F=\dfrac{V_R}{V_e} -
仮定のもとでの誤差はβ=0 より、S_yy はS_R 仮定による誤差増分といえるβ=0 - 「仮定の前後で最小残差平方和を求め、誤差増分と仮定前の比でF検定」
- 線形重回帰:
に対し(\bm{x}_{1},y_{1}),...,(\bm{x}_{n},y_{n}) y_i=α+β_{1}x_{i1}+,...,β_{p}x_{ip}+ε_{i} -
\bm{X}=\begin{pmatrix}1 & x_{11}& \cdots& x_{1p} \\1 & x_{21}& \cdots& x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\1 & x_{n1}&\cdots& x_{np} \\ \end{pmatrix} \bm{β}=\begin{pmatrix}α \\β_{1}\\ \vdots \\ β_{p} \\ \end{pmatrix} \bm{y}=\begin{pmatrix}y_{1} \\y_{2}\\ \vdots \\ y_{n} \\ \end{pmatrix} -
モデル:
\bm{y}=\bm{X}\bm{β}+\bm{ε} -
推定値:
\hat{\bm{y}}=\bm{X}\hat{\bm{β}} -
残差平方和
S_{e}=\sum_i{(y_i-\bm{x}_i\bm{β})^2}=(\bm{y}-\bm{X}\bm{β})^t(\bm{y}-\bm{X}\bm{β}) -
最小二乗法:
つまり\bm{X}^t\bm{X}\hat{\bm{β}}=\bm{X}^t\bm{y} \hat{\bm{β}}=(\bm{X}^t\bm{X})^{-1}\bm{X}^T\bm{y} -
より線形不偏推定量(LUE)E[\hat{\bm{β}}]=E[(\bm{X}^t\bm{X})^{-1}\bm{X}^T\bm{y}]=\bm{β} - 誤差
が独立同分布のとき、\bm{ε} は最良線形不変推定量(BLUE)\hat{\bm{β}} - BLUE:V[
]-V[\~{\bm{β}} ]が任意のLUEな\hat{\bm{β}} に対し半正定値であるLUE\~{\bm{β}}
-
-
重相関係数:
の相関係数(y_{1},\hat{y}_{1}),...,(y_{n},\hat{y}_{n}) -
偏相関係数:説明変数
と応答変数X_j の他の変数の影響を除去した相関係数Y -
以外のX_j からX_1,...,X_n ,X_j を予測する重回帰を最小二乗法で行うY - 1.の結果を用いた
,x_{ij} の予測値をy_{i}(1 \le i \le n) とする\hat{x}_{1j},...,\hat{x}_{nj},\hat{y}_1,...,\hat{y}_n -
の相関係数を求める(x_{1j}-\hat{x}_{1j},y_{1}-\hat{y}_{1}),...(x_{nj}-\hat{x}_{nj},y_{n}-\hat{y}_{n})
- 「残りの変数から重回帰で予測、予測を差し引いた値同士の相関が偏相関係数」
-
-
「全変動
=回帰変動S_{yy} +残差平方和S_R 」(各定義は単回帰と同様)S_e -
R^2=\dfrac{S_{R}}{S_{yy}} -
「決定係数は全変動に対する回帰変動の割合」
-
自由度は
φ_{yy}=n-1, φ_{e}=n-(p+1), φ_{R}=p -
帰無仮説
のもとで線形回帰と同様にβ_{1}=...β_{p}=0 でF検定F=\dfrac{V_R}{V_e}
-
- 残差分析:残差
が独立に同じ正規分布に従うか確かめ、モデルの妥当性を検証\hat{e}_{i}=y_{i}-\hat{y}_{i} - 残差プロット:
を横軸として\hat{y}_i をプロット。規則性があれば正規分布でない\hat{ε}_{i} - Q-Qプロット:仮説が正しければ
よって\dfrac{\hat{ε}_{i}-μ}{ε}\sim N(0,1) \dfrac{\hat{ε}_{(i)}-μ}{ε}\simeq φ^{-1}(\dfrac{i}{n+1}) - 昇順に並べ替え、順位を
としてi を横軸、φ^{-1}(\dfrac{i}{n+1}) を縦軸にプロット\hat{ε}_{(i)} - 正規分布ならばQ-Qプロットは直線上に並ぶ
- 昇順に並べ替え、順位を
- 残差プロット:
- 変数選択:多重共線性やモデルの複雑化を避けるため説明変数を適切に選択
-
:ε\sim N(0,σ^2) L=\prod_i{\dfrac{1}{\sqrt{2πσ^2}}\mathrm{exp}\left( {-\dfrac{ε^2_i}{2σ^2} } \right) }=\left( \dfrac{1}{\sqrt{2πσ^2}} \right)^n \mathrm{exp}\left( {-\dfrac{\sum_i{ε^2_i}}{2σ^2} } \right) -
S_e = \sum_i{ε^2_i}, よって、\quad σ^2=\dfrac{1}{n} \sum_i{ε^2_i}=\dfrac{S_e}{n} \quad \mathrm{log}L=-\dfrac{n}{2}\mathrm{log}(\dfrac{2πS_e}{n})-\dfrac{1}{2} -
※σもパラメタAIC=-2\mathrm{log}L-2\mathrm{dim}=n\left(\mathrm{log}\dfrac{2πS_e}{n}+1 \right)+2(p+2)\quad - 変数減少法:削除したときにAICが最も小さくする変数を削除、AICが減らなくなれば終了
- 変数増減法:定数項のみから始め、変数の追加削除のいずれかを行う中でAICが最も小さくなるモデルに変更、AICを減少させる方法がなければ終了
-
自由度調整済み決定係数:
R_f=1-\dfrac{\dfrac{S_e}{n-p-1}}{\dfrac{S_{yy}}{n-1}}=1-\dfrac{V_e}{V_{yy}}\quad \left(※R=1-\dfrac{S_e}{S_{yy}}\right) - AICの代わりに、自由度調整済み決定係数も変数選択の基準に用いることができる
-
- 一般化最小二乗推定:誤差が独立同分布でない、即ち共分散行列が一般正定値行列
の場合Ω - ある直交行列
と対角行列Q が存在してΛ より、Ω=QΛQ^t とするP=Λ^{\frac{1}{2}}Q^t -
とすると\rm{Y}^*=P\rm{Y}, \rm{X}^*=P\rm{X}, \rm{ε}^*=P\rm{ε} かつ\rm{Y}^*=\rm{X}^*β+\rm{ε}^* E[\rm{ε}^*]=0,V[\rm{ε}^*]=I -
とすると、\hat{\bm{β}}=({\bm{X}^*}^t\bm{X}^*)^{-1}{\bm{X}^*}^T\bm{y}^* はBLUE\hat{\bm{β}}
- ある直交行列
標本調査
- 無作為抽出:母集団に属する個体が一様かつ独立に抽出される
- 二段(多段)抽出法:全体からいくつかの地域(市区町村等)を無作為抽出し、抽出されたそれぞれの地域から一定数の個体を抽出する手法。段数が増えるほどコストは下がるが誤差は大きくなる
- 集落抽出法:母集団を小集団に分割し、幾つかの小集団を抽出、抽出した小集団について全数調査を行う
- 系統抽出法:通し番号を付けた名簿を用意し、1番目の対象を無作為に選んだあと、2番目以降を等間隔で抽出
- 層化抽出法:母集団を性質の異なるいくつかの層に分け、各層から必要な数の調査対象を無作為抽出する
- 層別解析:比較する群のそれぞれを、予め結果に影響しうる(影響を除去したい)属性ごとに分割して分割した同じ層の間で比較を行う
- 二相抽出法:層別解析を行いたいが母集団の事前情報がない場合の手法。第一相では母集団から標本を抽出して情報を取得し、第二相でその情報をもとに層別解析を行う
実験計画法
- フィッシャーの3原則
- 局所管理:実験をいくつかの層に分け、層の中では条件が均一になるようにする
- 無作為化:制御できない条件を偶然誤差に転化するため、順序、位置等を無作為に決める
- 繰り返し:実験誤差の評価等のため、同一条件の実験を2回以上繰り返す
- 乱塊法:フィッシャーの3原則をすべて満たす比較実験手法
- 実験全体を無作為化せず、実験に影響を与えうる条件(ブロック因子
、例:実験日)でブロック化を行うB - 各ブロック内で比較したい因子
の各水準を無作為な順序で行うA - 同一のブロック内では可能な限り実験条件が均一になるようにする
-
の各組に対する結果を表の形にまとめることで二元配置分散分析が行えるA,B - 「ブロック因子で実験をブロック化し、比較したい因子とブロック因子で二元配置」
- 実験全体を無作為化せず、実験に影響を与えうる条件(ブロック因子
-
直交表:下図のL_8 水準を持つ因子が複数存在するときに対する直交表2 - 因子が
個以下の時、7 回の実験で主効果同士が交絡しないようにできる8 - 下図の覚え方:第
列,第1(=001_{(2)}) 列,第2(=010_{(2)}) 列が基本形で、他の列は二進数において4(=100_{(2)}) が立つ位置に対応する列の積となっている1
- 因子が
1 | |
2 | |
3 | |
4 | |
5 | |
6 | |
7 | |
8 |
- 直交表実験:一部実施要因計画において、主効果同士が交絡しないように実験を行う手法
- 主効果:交互作用ではない、1つの要因に絞った効果(二乗の項なども含める)
- 完全実施要因計画:各要因全ての水準の組み合わせで1回以上実験↔一部実施要因計画
- 直交表の各列に因子を割り当て、各回の実験は各行に対応。実験順序は無作為化する
- 例:2水準4因子の時:
直交表を利用L_8 Y_{ijkl}=μ+A_i+B_j+C_k+D_l+ε_{ijkl}, \sum{A_i}=\sum{B_j}=\sum{C_k}=\sum{D_l}=0 -
をそれぞれ異なる列に割り付けるA,B,C,D -
は実験結果として得る8つのA_i, B_j, C_k, D_l の線形結合で表せるY_{ijkl} - 交互作用
を加えるとき:A×B \sum_i{(AB)_{ij}}=\sum_j{(AB)_{ij}}=0 - 要因
は、「要因A×B の列番号の桁ごとxor」の列に割り当てれば他と交絡しないA,B
- 完全交絡:因子の動きが完全に重なって全く区別できない状態↔部分交絡
- 交絡法:高次の交互作用の小さな部分交絡を許し、実験回数を抑えつつ因子の数を増やす
- 中心複合計画:一次項だけでなく二次項の推定も行う実験計画、中心点での繰り返しあり
多変量解析
- 主成分分析:高次元データを分散が最大になるように低次元空間に線形射影する
-
個のn 次元データp を\bm{x}_1,...\bm{x}_n の縦ベクトル\bm{w}^T\bm{w}=1 で\bm{w} 次元空間に圧縮するとき、1 の分散共分散行列をX とした、圧縮後の標本分散V を最小化u \bm{μ}=\dfrac{1}{n}\sum_i{\bm{x}_i}, \quad V=\dfrac{1}{n}\left(\begin{matrix}\bm{x}_1-\bm{μ}, \cdots , \bm{x}_n-\bm{μ} \end{matrix} \right) \left(\begin{matrix}\bm{x}_1^T-\bm{μ}^T \\ \vdots \\ \bm{x}_n^T-\bm{μ}^T \end{matrix} \right) u=\sum_i{(\bm{w}^T(\bm{x}_i-\bm{μ}))^2}=\bm{w}^TV\bm{w} -
のもとで\bm{w}^T\bm{w}=1 の最大値は\bm{w}^TV\bm{w} の最大固有値V (λ_1 は固有ベクトルのとき)w - 「第
主成分はk のV 番目に大きい固有値に対応する固有ベクトル、その標本分散は固有値」k - 主成分得点:
主成分負荷量(因子負荷量):w_i^Tx_i\quad \sqrt{λ_i}w_i - 「主成分負荷量の第k成分は、主成分得点と元の変数の第k成分の共分散」
- 寄与率:
累積寄与率:\dfrac{λ_k}{λ_1+...λ_p}\quad \dfrac{λ_1+...λ_k}{λ_1+...λ_p} - 「累積寄与率はk$番目までの主成分によるデータ変動の反映程度の指標」
-
- 因子分析:
次元変数p の振る舞いを、より少数の共通因子の線形和で表現するモデルを導くX -
,\bm{X}=\left(\begin{matrix}X_1 \\ \vdots \\X_p \end{matrix} \right) 独自因子\quad \bm{μ}=E[\bm{X}],\quad \bm{U}=\left(\begin{matrix}U_{1} \\ \vdots \\U_{p} \end{matrix} \right) - 因子負荷量
共通因子Λ=\left(\begin{matrix}λ_{11} ,\cdots, λ_{1k} \\ \vdots \quad \ddots \quad \vdots \\λ_{p1},\cdots,λ_{pk} \end{matrix} \right),\quad \bm{F}=\left(\begin{matrix}F_{1} \\ \vdots \\F_{k} \end{matrix} \right) - モデル:
\bm{X}=\bm{μ}+Λ\bm{F}+\bm{U},\quad E[\bm{U}]=E[\bm{F}]=\bm{0},\quad V[\bm{U}]=D, V[\bm{F}]=φ - 仮定:独自因子と共通因子は無相関,
E[UF^T]=0 -
は対角行列、D は正定値。共通因子間に相関がないとき直交モデル↔斜交モデルφ -
共分散行列\bm{X}の Σ=E[(\bm{X}-\bm{μ})(\bm{X}-\bm{μ})^T]=ΛΛ^T+D - 標本共分散行列
S=\dfrac{1}{n-1}\sum_i{(\bm{x}_i-\bar{\bm{x}})(\bm{x}_i-\bar{\bm{x}})^T} -
不一致度(成分差平方和):
d(S,Σ)=\sum_r{\sum_{r'}{(s_{rr'}-σ_{rr'})^2}}=tr{(S-Σ)(S-Σ)^T} - 回転不定性:
とすると、Λ^*=ΛT, F^*=T^{-1}F はモデルを満たすΛ^*,F^* - 「各因子無相関を仮定、モデルの共分散行列と標本共分散の成分差平方和最小化」
- 「直交モデルでまずパラメタ推定を行い、その後解釈のため適当な基準で回転」
-
が直交行列のとき:直交回転、直交モデル性は維持される↔斜交回転T - バリマックス回転:直交回転の一種、因子負荷量λ_{ij}の二乗の分散を最大化
- プロマックス回転:斜光回転の代表的手法
-
- 判別分析:
つの群に分かれた2 次元データ等を判別するための最適な射影と基準を考える2 - 群
:1 群(x_{11}^{(1)},x_{12}^{(1)}),...,(x_{n_11}^{(1)},x_{n_12}^{(1)})\quad :2 (x_{11}^{(2)},x_{12}^{(2)}),...,(x_{n_21}^{(2)},x_{n_22}^{(2)}) - 「
と変換するとき、Y=β_1X_1+β_2X_2 の相関比を最小化するY を求める」β_1,β_2 - 相関比
:Yの総偏差平方和η^2 に対する群間偏差平方和S_T の比S_B \dfrac{S_B}{S_T} -
S_T=\sum_k{\sum_i{(y_i^{(k)}-\bar{y})^2}},\quad S_B=\sum_k{n_k(\bar{y}^{(k)}-\bar{y})^2} - 群内偏差平方和:
S_W=\sum_k{\sum_i{(y_i^{(k)}-\bar{y}^{(k)})^2} } -
よりS_T=S_B+S_W η^2=\dfrac{1}{1+\dfrac{S_W}{S_B}} - 合併した分散共分散:
s_{jj'}=\dfrac{1}{n_1+n_2-2}\sum_k{ \sum_i{(x_{ij}^{(k)}-\bar{x}_{.j}^{(k)})(x_{ij'}^{(k)}-\bar{x}_{.j'}^{(k)})} } -
最大化(定数倍自由):η^2 \left(\begin{matrix}β_{1} \\β_{2}\end{matrix} \right)=\left(\begin{matrix}s_{11} & s_{12} \\s_{21} & s_{22}\end{matrix} \right)^{-1}\left(\begin{matrix}\bar{x}_{.1}^{(1)}-\bar{x}_{.1}^{(2)}\\\bar{x}_{.2}^{(1)}-\bar{x}_{.2}^{(2)}\end{matrix} \right) - 「合併共分散行列の逆行列に、各次元での群平均差を並べた縦ベクトルを掛ければ最適」
- 群
と群1 の2 上分布は正規分布に従うと仮定し密度関数Y を求めるφ_1,φ_2 - 母集団内の群
,1 の比率を2 とするπ_1,π_2 -
となるπ_1φ_1(c)=π_2φ_2(c) を判別基準とするc - 「判別基準は母集団内比率で重みづけた密度関数の値が等しくなる点」
- 群
- クラスター分析:各個体の群への分類をラベルなしに行う手法
- p次元データ:
X_i=(x_{i1},...,x_{ip}) \quad (1 \le i \le n) - ミンコフスキー距離:
d_{ii'}=\left( \sum_j{|x_{ij}-x_{i'j}|^{ν} }\right)^{\frac{1}{ν}} - 階層的クラスター分析:各個体を
つのクラスタとし、距離が近いクラスタ同士を融合1 - 個体間の距離はユークリッド距離二乗など適当な距離関数で初期化する
- ウォード法:融合時のクラスタ間の距離の更新方法の一種。
とq を融合しr とするときs d_{st}=\dfrac{1}{n_s+n_t}((n_q+n_t)d_{qt}+(n_r+n_t)d_{rt}-n_td_{qr}) - 最短距離法:
d_{st}=\mathrm{min}(d_{qt},d_{rt}) - デンドログラム:各個体が融合される様子を樹形図にまとめたもの
- どの段階で融合を止めて結果とするかに絶対的基準はない、デンドログラム等で判断
- 非階層的クラスター分析:k-平均法のような階層性のないクラスタリング法
-
k-平均法:クラスタの代表点更新とデータの割り付けを収束するまで反復
-
個のk 次元ベクトルp を各クラスタの初期代表点とするμ^{(1)},...,μ^{(k)} - 各個体
を最も近い代表点に対応するクラスタに割り当てるx_{i1},...x_{ip} - 各クラスタの平均を新たなクラスタの代表点とし、変化があれば2.に戻る
-
-
k-平均法:クラスタの代表点更新とデータの割り付けを収束するまで反復
- p次元データ:
-
ロジスティック回帰分析:被説明変数
がY と0 の1 値であるときの回帰分析2 -
に対して、\bm{x}=(x_1,...,x_p) の確率Y=1 q(\bm{x};\bm{β})=\dfrac{1}{1+e^{-(β_0+β_1x_1+...+β_px_p)}} - 尤度:
L=\prod_i{q(\bm{x}_i,\bm{β})^{y_i}(1-q(\bm{x}_i,\bm{β}))^{(1-y_i)}} - 尤度最大の
は解析的に求まらないため、数値解析近似を行う\bm{β}
-
品質管理
※統計応用「理工学」の専門範囲の内容です
- 品質管理:製品の品質特性や作業者の作業内容が定められた基準や規格に沿うよう管理、保証
- TQM(総合品質管理):生産から販売に至るすべての過程で総合的に品質を管理
- PDCA管理サイクル:計画(Plan)、実施(Do)、確認(Check)、対策(Action)の反復で品質を管理
- 管理図:製品の何らかの物理量を測定し、予め得ていた平均等からの逸脱の程度を管理する図
- 例:平均を中心とし
範囲から逸脱すれば異常が存在すると判定する3σ
- 例:平均を中心とし
- 保全性:所定の条件で修理や交換等の保守作業を行うことで、機能や状態が維持される性質
- 可用性:システムがサービス提供不能等に陥らずに継続して稼働できる能力
- 信頼性:一定条件下で安定して機能を提供し続けられる能力
- 時刻
の瞬間故障確率:t f(t) - 時刻
までに故障する確率(寿命がt の確率):t \displaystyle F(t)=\int_0^t{f(τ)dτ} - 平均故障間隔:
※修理できない製品ではMTBF(平均故障時間)MTBF=E[F(t)]\quad -
時刻
までに故障しない確率(信頼性の指標):t R(t)=1-F(t) -
平均復旧時間
(保全性の指標):故障してから復旧するまでの時間の期待値MTTR -
稼働率(可用性の指標):
\dfrac{MTBF}{MTBF+MTTR}
- 時刻
- 工程能力指数:ある工程の工程能力を評価する指標
- 母集団を正規分布と仮定し、上側規格値
、下側規格値USL とするLSL - 特性値の目標値
、母平均の推定値T 、母標準偏差の推定値\hat{μ} とする\hat{σ} -
\hat{C}_p=\dfrac{USL-LSL}{6\hat{σ}},\quad \hat{C}_{pk}=\mathrm{min}(\dfrac{\hat{μ}-LSL}{3\hat{σ}},\dfrac{USL-\hat{μ}}{3\hat{σ}}) -
\hat{C}_{pm}=\dfrac{\hat{C}_p}{\sqrt{1+\dfrac{(\hat{μ}-T)^2}{\hat{σ}^2}}},\quad \hat{C}_{pmk}=\dfrac{\hat{C}_{pk}}{\sqrt{1+\dfrac{(\hat{μ}-T)^2}{\hat{σ}^2}}}
- 母集団を正規分布と仮定し、上側規格値
線形推測
※統計応用「理工学」の専門範囲の内容です
-
正則化:線形回帰において、結果の安定化のためパラメータ
の複雑さにペナルティ\bm{β} - リッジ:
のβ ノルムをペナルティとする。逆行列部分が正則になるL_2 \bm{β}_{ridge}=\mathrm{argmin}\left\{ \sum_i{(y_i-\bm{x}_i^T\bm{β})}+λ\sum_j{β_j^2} \right\}, \quad\bm{β}_{ridge}=(\bm{X}^T\bm{X}+λI)^{-1}\bm{X}^T\bm{y} - ラッソ:
のβ ノルムをペナルティとする。疎な解を得やすく次元縮小に有効L_1
形式的解は得られない\bm{β}_{lasso}=\mathrm{argmin}\left\{ \sum_i{(y_i-\bm{x}_i^T\bm{β})}+λ\sum_j{|β_j|} \right\},\quad - エラスティックネット:リッジとラッソの線形結合
\bm{β}_{ridge}=\mathrm{argmin}\left\{ \sum_i{(y_i-\bm{x}_i^T\bm{β})}+λ\left\{ α\sum_j{β_j^2}+(1-α)\sum_j{|β_j|} \right\} \right\}
- リッジ:
-
次元縮小:用いる変数の数を
からp_1 に減らしても良いかをp_0 検定F - RSS_i:
次元での残差平方和p_i -
個のパラメタをp_1-p_0 とする仮定を帰無仮説とする0 -
の自由度はRSS_i φ_i=n-p_i-1 \dfrac{\dfrac{RSS_0-RSS_1}{φ_0-φ_1}}{\dfrac{RSS_1}{φ_1}}\sim F(φ_0-φ_1,φ_1) - 「仮定の前後で最小残差平方和を求め、誤差増分と仮定前の比でF検定」
- RSS_i:
-
線形制約:線形モデルのパラメタ間に線形制約がある場合
- モデル
において、パラメタ間に制約y=X\bm{β}+ε を設けるL\bm{β}=\bm{c} - 無制約残差最小化:
\hat{\bm{β}}=(X^TX)^{-1}X^Ty - 制約付き残差最小化:
\bm{β}=\hat{\bm{β}}-(X^TX)^{-1}L^T(L(X^TX)^{-1}L^T)^{-1}(L\hat{\bm{β}}-\bm{c})
- モデル
その他のテクニック等
-
分布の必要な点が与えられていないときF - 自由度
の(1,n) 分布の上側F :自由度α\% のn 分布の上側t の\dfrac{α}{2}\% 乗2 -
分布は第2自由度について減少関数(第1自由度についてはそうとは限らない)F
- 自由度
- 回帰分析と分散分析
- 回帰分析と
の水準毎の分散分析に差があるとき、直線的関係ではないといえるx
- 回帰分析と
Discussion