🧭

もう迷わない!正規性検定の使い分けガイド【実務向け】|Shapiro-Wilk, AD, KSの違いと選び方

に公開

はじめに

本記事の目的

統計検定には「似ているようで微妙に使いどころが異なる」手法が多くあります。
本記事では「何を見てどの手法を使うか」に焦点を当てて整理していきます。
例:Shapiro-Wilk検定 vs Anderson-Darling検定 など

対象読者

「マーケティングや業務改善など、実務で統計を使う人」、
「統計検定の資格や基礎知識は持っているが、実務でどう使うかわからない人」、
「難しい話はいいから、何を使えばいいか教えてほしい人」

本記事のまとめ(結論だけ知りたい方へ)

正規性検定の使い分け:
 サンプルサイズが小~中規模 → Shapiro-Wilk
 外れ値やまれなケースが重要 → Anderson-Darling(AD)
 正規分布以外にも拡張したい → Kolmogorov-Smirnov(KS)

正規性検定とは何か

正規性検定は「データが正規分布に従っているかどうか」を統計的に判断する方法

正規性がある状態とは?

  • 平均を中心に左右対称のベル型(山型)カーブ
  • 中央値=平均=最頻値
  • 68-95-99.7ルール(±1σに68%、±2σに95%、±3σに99.7%のデータが含まれる)

例:身長・テストの点数・機械部品の寸法など、自然界や人間行動に由来する多くのデータ

なぜ正規性が重要?

理由① 正規性があると数式的に扱いやすくなる
平均と分散で分布が決まるため、検定統計量の導出やシミュレーションが容易。
理由② 多くの検定や推定手法が正規分布を前提としている
正規性があると、t検定などの理論が成り立ち、p値や信頼区間も正しく出せる。
逆に正規性がないと、これらの前提が崩れ検定結果の信頼性が低くなる。
理由③ 中心極限定理と相性がいい
中心極限定理[1]により、実務上は標本サイズが十分あれば多少の非正規性は許容される。

正規性が前提となる統計手法 ※随時更新予定

手法 正規性が前提か? 正規性が必要/不要の理由
対応のあるt検定 必要 各群での差分が正規分布に従うことが前提のため
Wilcoxonの符号付順位検定 不要 ノンパラメトリック検定のため
Studentのt検定 必要 各群が正規分布に従うことが前提のため
Welchのt検定 必要 各群が正規分布に従うことが前提のため
Mann-Whitney検定 不要 ノンパラメトリック検定のため
ANOVA(分散分析) 必要 各群の残差が対象のため
回帰分析(OLS) 必要 誤差項が正規分布であることが前提のため

正規性を満たさないときはどうすればいいか?

  • ノンパラメトリック検定[2]に切り替える:Mann-Whitney検定やWilcoxonの符号付順位検定など
  • データ変換する:対数変換[3]やBox-Cox変換[4]など
  • ブートストラップ[5]を使う

代表的な検定手法とその使い分け

手法 特徴 推奨シーン
Shapiro-Wilk 小〜中サンプルに強く、検出力が高い 実務でよく使われる、迷ったら実施(特にn < 50)
Anderson-Darling(AD検定) 尾部に特化、極端値のズレに敏感 外れ値やまれなケースが重要な場合
Kolmogorov-Smirnov(KS検定) 任意の分布との一致を見る 検定対象を正規分布以外にも拡張したいとき

注意点・落とし穴

  • 正規性検定のp値だけで判断しない: Q-Qプロットやヒストグラムでのグラフ判断も併用
    • 検定は「正規分布ではないという証拠が見つからなかった」というだけ
  • サンプルサイズ
    • 小さすぎると歪みが見逃されやすい(正規性があるとみなされる)
    • 多すぎると問題ないズレまで「有意」になってしまう(正規性がないとみなされる)
  • 外れ値があると誤判定しやすい: Anderson-Darling検定やグラフ判断が有効

まとめ:正規性検定の選び方

  • 迷ったらShapiro-Wilk:中小規模のデータにはこれ一択
  • 外れ値やまれなケースを重視 → Anderson-Darling
  • 正規分布以外にも応用したい → Kolmogorov-Smirnov(ただし精度に注意)
  • p値だけで判断しない:グラフ(Q-Qプロットなど)とセットで確認
  • 正規性がないときは?:ノンパラメトリック検定・データ変換・ブートストラップで代替可能

関連記事

https://best-biostatistics.com/summary/is-normality-testing-necessary.html
https://academic.oup.com/biomet/article-abstract/52/3-4/591/336553?redirectedFrom=PDF&login=false

脚注
  1. 中心極限定理:サンプル数が大きくなるにつれて、正規分布に収束する ↩︎

  2. データが特定の分布(例:正規分布)に従っているという仮定を必要としない統計的検定 ↩︎

  3. データの各値に対して、対数(通常は自然対数)を取ることで、データの分布を正規分布に近づけたり、ばらつきを減らすための変換 ↩︎

  4. パラメータλを使ってデータを調整することで、対数変換より柔軟に、正規分布に近づけるための変換 ↩︎

  5. 標本データから繰り返し再抽出して、統計量の分布を推定する方法。 ↩︎

Discussion