🎉

統計検定2級の用語集

に公開

1. データの整理と要約

幹葉図

  • 説明:データの分布の形と、個々の値をざっくり同時に見る図。
  • 具体例:50人のテスト点数(41, 55, 67, 83…)を幹葉図にして、「70点台が多い」「90点台は少ない」を一目で確認。

歪度(Skewness)

  • 説明:分布が右寄りか左寄りかを表す指標。
  • 具体例:残業時間の分布を見たら、多くは0〜20時間だが一部が80時間など長時間 → 右に長い“しっぽ”で正の歪度。

尖度(Kurtosis)

  • 説明:分布の山の鋭さ・裾の重さを表す指標。
  • 具体例:試験の点数が「60点前後にギュッ」「0点や100点はほぼいない」→ 山が細く尖って高い尖度。

2. 確率と確率分布

全確率の法則

  • 説明:場合分けした確率を足して、全体の確率を求める関係。
  • 具体例:「平日か休日か」で来店確率を分けて、全体の来店確率を
    平日来店率×平日比率+休日来店率×休日比率 で求める。

ポアソン分布

  • 説明:一定時間に何回イベントが起きるか(まれな事象の回数)。
  • 具体例:コールセンターに1時間あたり平均5件電話が来るとき、「次の1時間に3件ちょうど来る確率」を計算。

幾何分布

  • 説明:初めて成功するまでの試行回数の分布。
  • 具体例:アンケートで「はい」と答えてくれる人が20%のとき、「3人目で初めて“はい”が出る確率」を計算。

ハイパージオメトリック分布(超幾何分布)

  • 説明:非復元抽出での成功数の分布。
  • 具体例:10個中3個が不良のロットから、検査で4個取り出したとき、「不良がちょうど1個含まれる確率」を計算。

標本平均の分布

  • 説明:同じ大きさの標本を何度も取ったときの“平均値の分布”。
  • 具体例:工場で1日10個ずつ製品の長さを測り、30日分の「日ごとの平均長さ」を並べた分布。

標本分散の分布(χ²分布と関係)

  • 説明:標本分散がどのくらいブレるかの分布。
  • 具体例:1ロットから5個ずつ取り、ロットごとの分散を出して、「ロットによるバラつきが大きすぎないか」をχ²検定で確認。

3. 推定(点推定・区間推定)

不偏推定量

  • 説明:平均すると真の母数になる推定量。
  • 具体例:大量にサンプルを取り続けて標本平均を計算すると、平均は真の母平均に近づく。

不偏分散

  • 説明:分母を n–1 にした分散で、母分散の不偏推定量。
  • 具体例:20人の身長データから分散を計算するとき、nではなく19で割って“ちゃんとした”母分散の推定にする。

最尤推定(MLE, Maximum Likelihood Estimation)

  • 説明:観測データが一番起こりやすくなるような母数を選ぶ方法。
  • 具体例:不良率がわからない製造ラインで、100個中5個が不良なら、「不良率5%」と仮定すると“この観測”が一番ありそう、と判断。

事後分布

  • 説明:事前の信念とデータを組み合わせた母数の確率分布。
  • 具体例:「不良率は5%前後だろう」という事前と、新しい検査結果を組み合わせて、「今の時点で不良率はこれくらい」と確率分布で表す。

信頼係数

  • 説明:信頼区間が真の母数を含む割合。
  • 具体例:「95%信頼区間」といえば、同じ手順で100回区間を作ると、そのうち約95回は真の母数を含むイメージ。

標準誤差(S.E., Standard Error)

  • 説明:推定量(例:平均)のブレの大きさ。
  • 具体例:1日10人分の身長平均を毎日計算したとき、「日ごとの平均のバラつき」の標準偏差。

母平均の区間推定

  • 説明:標本平均から母平均の範囲を推定。
  • 具体例:20人の平均身長が170cmで標準偏差が5cmのとき、「母平均は 170±1.5cm の範囲」と95%信頼区間を出す。

母比率の区間推定

  • 説明:標本比率から母比率の範囲を推定。
  • 具体例:サンプル100人中、喫煙者が30人なら、「母集団の喫煙率はおよそ30%±9%」などと区間で表す。

母分散の区間推定

  • 説明:標本分散から母分散の範囲を推定。
  • 具体例:製品の長さの分散がサンプルで0.01だったとき、χ²分布を使って「真のばらつきの強さ」の区間を求める。

4. 仮説検定

第一種の誤り(Type I)

  • 説明:本当はH₀が正しいのに棄却。
  • 具体例:本当は新薬に効果がないのに、「効果あり」と判断してしまう。

第二種の誤り(Type II)

  • 説明:本当はH₁が正しいのにH₀を棄却しない。
  • 具体例:実は新薬に効果があるのに、「効果なし」と判断してしまう。

検出力(Power)

  • 説明:本当に差があるときに、“差がある”と検出できる確率。
  • 具体例:売上向上施策の効果を検証するA/Bテストで、「本当に+5%改善があるときに、それを有意と判断できる確率」。

z検定

  • 説明:母分散が分かっているときの平均の検定。
  • 具体例:長年のデータから「ばらつき」がほぼ確定している製造工程で、最近のロットの平均が過去と違うか調べる。

t検定(1標本・2標本・対応あり)

  • 説明:母分散が未知のときの平均の検定。

  • 具体例:

    • 1標本:製品の平均長さが仕様値100mmと違うか。
    • 2標本:工場Aと工場Bの平均不良数が違うか。
    • 対応あり:同じ人のダイエット前後の体重の変化。

χ²検定(適合度・独立性)

  • 説明:度数データが理論と合うか/2変数が独立か。

  • 具体例:

    • 適合度:サイコロが本当に“公平”か、出目の頻度から検定。
    • 独立性:性別と喫煙習慣に関係があるかをクロス集計で検定。

F検定

  • 説明:2つ以上の母分散が等しいかを調べる検定。
  • 具体例:機械Aと機械Bで作った部品の寸法の「ばらつきの大きさ」が同じかどうかを見る。

5. 回帰分析・相関分析

自由度調整済み決定係数(Adjusted R², Adjusted Coefficient of Determination)

  • 説明:説明変数の数を考慮して調整した決定係数。
  • 具体例:説明変数を適当に増やすとR²だけ上がるが、Adjusted R²が上がらないなら「無駄な変数が多い」と判断。

6. 時系列解析(2級で出る範囲)

偏自己相関(PACF, Partial Autocorrelation Function)

  • 説明:中間ラグの影響を取り除いたラグkとの相関。
  • 具体例:売上の時系列でラグ1,2,3…の偏自己相関を見て、「何期前までの売上を説明に使うべきか」を決める。

7. 品質管理(統計的プロセス管理)

管理図(Control Chart)

  • 説明:工程のデータを時系列に並べ、異常を監視するグラフ。
  • 具体例:毎時間の製品長さの平均を打点して、「管理限界線を超えたポイントがないか」をチェック。

x̄–R管理図

  • 説明:小サンプルの平均(x̄)と範囲(R)で工程を監視。
  • 具体例:1ロット5個の長さを測り、各ロットの平均と最大−最小の差を管理図に打つ。

x̄–s管理図

  • 説明:平均(x̄)と標準偏差(s)で工程を監視。
  • 具体例:1ロット20個などサンプル数が多いとき、範囲より標準偏差でばらつきを管理する。

p管理図(p chart, proportion chart)

  • 説明:不良率(割合)の推移を監視。
  • 具体例:毎日100個検査して、「不良品の割合」が基準から外れていないかを見る。

np管理図

  • 説明:不良品の個数を監視(サンプル数一定)。
  • 具体例:毎ロット検査数が常に200個のとき、不良品個数の推移をグラフ化。

c管理図

  • 説明:単位あたり不良件数を監視。
  • 具体例:1枚の板に付いたキズの数を数えて、「1枚あたりキズ件数」の推移を管理。

u管理図

  • 説明:サンプルサイズが変動する場合の単位あたり不良件数。
  • 具体例:日によって検査した枚数が違うとき、「1枚あたりの平均キズ件数」の管理図を作る。

8. 分散分析(ANOVA)

一元配置分散分析

  • 説明:1つの要因で複数の群の平均を比較。
  • 具体例:3種類の肥料A/B/Cで育てた植物の平均高さに差があるかを一度に検定。

群内分散

  • 説明:同じ群内の個体差によるばらつき。
  • 具体例:肥料Aグループの植物同士の高さのバラつき。

群間分散

  • 説明:群の平均の違いによるばらつき。
  • 具体例:肥料A, B, C の“平均身長の差”に由来するバラつき。

F比

  • 説明:群間分散 ÷ 群内分散。
  • 具体例:群間分散が群内分散よりかなり大きいとF比が大きくなり、「群に差がありそう」と判断。

多重比較

  • 説明:有意差が出た後、どの組み合わせが違うか調べる。
  • 具体例:A/B/Cで平均に差があるとわかった後で、「AとB」「AとC」「BとC」のどこが違うかを Tukey 法などで検証。

9. 統計的推測の基礎数学

中心極限定理(CLT, Central Limit Theorem)

  • 説明:標本平均の分布はサンプル数が増えると正規分布に近づく。
  • 具体例:アンケートで毎週100人の満足度平均をとると、「平均値の推移」はほぼ正規分布的に振る舞う。

確率変数の線形結合

  • 説明:複数の確率変数を足したり係数をかけたりしたときの分散・共分散の計算ルール。
  • 具体例:2つのセンサー測定値 X, Y を (X+Y)/2 で平均するとき、誤差(分散)がどう変わるかを計算。

共分散行列

  • 説明:各変数ペアの共分散を並べた行列。
  • 具体例:身長・体重・年齢の3つの変数について、3×3の行列に「身長×体重の共分散」「身長×年齢の共分散」などを並べる。

正規近似

  • 説明:大きな標本で二項分布などを正規分布で近似。
  • 具体例:コインを100回投げた表の回数は、本来は二項分布だが、平均50・分散25の正規分布として近似して計算する。

10. 実務統計:調査法・標本設計

標本誤差

  • 説明:標本を取ったことによる“偶然のズレ”から生じる誤差。
  • 具体例:100人にアンケートして支持率40%と出たが、母集団の真の支持率は42%だった、というズレ。

非標本誤差

  • 説明:調査方法や回答の仕方が原因の誤差。
  • 具体例:オンライン調査だけ実施して高齢者がほとんど含まれず、結果が偏る/回答者が適当に答える、など。

Discussion