🧭
【保存版】カイ二乗検定の3つの使い方と選び方(適合度・独立性・対称性)
カイ二乗検定とは?
- カテゴリデータの分析に特化した統計手法
- 「期待値と観測値のズレを検証する」ことが共通点
- 「分布の違い」や「変数間の関連性」を評価できる
カイ二乗検定の用途タイプ
検定名 | 用途 | 検定対象 | データ形式 | 例 |
---|---|---|---|---|
適合度検定 | 理論とデータが合っているか? | 1つのカテゴリ変数 vs 理論分布 | 度数の1次元表 | サイコロが公平か? |
独立性の検定 | 2つのカテゴリ変数は関係あるか? | 2つのカテゴリ変数 | クロス集計表(2次元表) | 性別と購買は関係あるか?A社とB社で満足度に違いがあるか? |
対称性の検定 | ビフォーアフターで変化はあるか? | 同一カテゴリでのペアデータ | 正方の分割表(2×2 以上の表) | 購買前後で変化があったか? |
用途別の詳細記事リンク
- 🔗 適合度の検定(ComingSoon)
- 🔗 独立性の検定
- 🔗 対称性の検定 (ComingSoon)
注意点・落とし穴
-
期待度数が小さいと信頼性が下がる:
クロス集計表の各セルの期待値が5未満のセルが多いと結果が不安定になる
→ カテゴリを統合する、フィッシャーの正確確率検定 等を検討 -
データは「度数(カウント)」であることが前提:
割合だけでは❌ 割合の元となった人数が必要! -
サンプルサイズが大きすぎると些細な差も有意になる
→効果量の確認、実務で意味のある差かどうかの判断も加える -
カテゴリの設定次第で結果が変わる:
(例:年代を2分割にするか、3分割にするかで結果が変わる可能性がある)
→ 事前に意味のあるカテゴリ設計を行うことが重要、恣意的な切り方に注意 -
"差がある"の解釈に要注意:
- 統計的な差の有無を見ているにすぎず、「どのくらい違うか」は示していない
→効果量の確認、実務における重要性も併せて評価 - 差があってもそれが原因かどうかは判断できない、あくまで関係性の検出
→因果関係は他の手法で検証
- 統計的な差の有無を見ているにすぎず、「どのくらい違うか」は示していない
-
検定の結果だけに頼らない:
p値が有意でも、実際に得られる差がビジネスにおいて意味があるとは限らないため、
実務では以下の観点も併せて確認することが大切- 差の大きさ(効果量)が実用的か?
- 投資対効果があるか?
- 再現性はありそうか?
まとめ:目的に応じた選び方
- 事前に想定していた理論値と実際の件数がズレていないかを確認したい → 適合度検定
- 2つのカテゴリ変数に関係があるかを見たい → 独立性の検定
例:性別×購買、都道府県ごとの年代別イベント参加者数 - ビフォーアフターの変化を比較したい → 対称性の検定
例:購買前後の満足度
関連記事
Discussion