確率・統計の基礎理論の学習の流れの個人的整理
1.場合の数
中学・高校の内容。問題を解く際に必要となる知識は少ないが、問題によってはアイデアや閃きが必要になる。確率統計とは別の方向の発展方向として組み合わせ論がある。
2.離散型確率分布
まず「条件を満たす場合の数/全部の場合の数」という形が出て来る。
次に二項分布などの決まった形の確率変数が出て来る。ポアソン分布は直感的に分かりやすい形ではないが、2項分布のn→∞としたときの極限として導出が可能である。(np=λとおく。)
条件付き確率は感覚的に馴染むのが難しいこともあり、ひとつの山場となる。
3.連続型確率分布
ここで言わば主役の正規分布が登場し、ここまででひとつの区切りとなる。問題によっては置換積分などの計算技術が必要になる。
本格的な統計の本や数理統計学の本では分布の特性値としてモーメント母関数ないし特性関数について解説し、さらには条件付き期待値や条件付き分散についても解説されるが、教養レベルの確率統計の教科書や授業ではそれらは出て来ないこともしばしば。
4.推定・検定
最初は基本的に母集団が正規分布に従うという仮定で話が進む。
所謂教養レベルに範囲を絞ったとしても本質的に急に難易度が上がる。その理由としては以下が挙げられる。
1.ここで新しくt-分布やF-分布といった確率分布が出て来る。これらは標本分布と呼ばれるタイプの確率分布であるが、標本分布はこれまでの確率分布の様に「~という試行において~が発生する確率」という様な日常的な感覚による解釈や説明が難しく、「~に用いられる確率分布」という説明がされる。また、確率密度関数の算出なども非常に技巧的である。
2.これまでは、確率を計算する、あるいは期待値や分散を計算するという様に、議論の目的が比較的分かりやすかったが、推定や検定は議論の流れが複雑である。(検定は背理法を用いている。)
3.ここで出て来る中心極限定理は統計学における最重要定理と言えるほど重要な定理であるが、証明は非常に難しく、完全な証明は教養レベルの統計学の範囲を大きく超える。従って結果のみが突然与えられるため、少し消化不良を感じる部分もある。
4.最初は母集団と標本という枠組みから始まり、分析対象の母集団が何であるか分かりやすい状況を考えるが、いつの間にか母集団という言葉が出て来なくなる。これは、母集団が「実在する集団や集合」から「理論上の集団や集合」に変わっていくため、むしろいちいち母集団が何であるか書かない方が混乱がないからだと思われる。このように理論の重点が特に注意されることなく変わっていくので、気を付けなければならない。
5.検定では検定統計量という統計量を考え、それがどのような確率分布に従うか(厳密にはどのような確率分布に分布収束するか)を考える。しかしこれは基本的に自力で思いつくような代物ではなく、その結果として与えられる公式も日常的な感覚で平易に納得できるものではない。
6.本質的な理解をしていてもいなくても、具体的に計算をする時は公式を使うことが基本的だが、その公式の数がかなり多い。
1~5については、教養レベルの統計の本では上手にさらっと説明が書かれている(「近似的に~に従うことが知られている」などと書かれている)ので、どこが難しくなったのか、何故分からなくなったのか逆に気づきにくい。
そして、非常に奥が深く幅の広い理論であるため、初学者が学ぶ順番やノートのまとめ方と、本格的に数理統計学を学ぶ場合の理論体系やまとめ方は大きく異ならざるをえない。つまり、最初に推定検定を学んだノートに継ぎ接ぎしていくのではなく、どこかで一から作り直すことが必要になる。
5.最尤推定
初学者向けの基本的な統計学の本では出て来ないこともあるため、実際には区間推定や母平均の検定などを学んだ後に学ぶことになるが、理論体系上はその前に学ぶべき内容と言ってもいい。ベイズ統計学導入の動機付けのひとつとしても重要な分野である。
6.回帰分析
ここで新しく「説明変数と目的変数の間に何かしらの関係は存在すると言えるか、存在するならば説明変数を使って目的変数の振る舞いを記述したい」という目的意識が現れる。
また計算量がさらに多くなるため、具体的に数値を求める際にはコンピュータを使うことが前提となってくる部分もある。
回帰分析は初心者向けの統計の本と本格的な数理統計学の本の記述の差が推定・検定以上に大きく、本格的な数理統計学を学ぶ際は一度最初から知識をまとめ直すことが要求される。
初心者向けの本ではy=ax+bという形の回帰直線のみを扱う、またはR^2係数の紹介をして終わりである。誤差項については記述がないこともよくある。
しかし本格的な数理統計学の本では誤差項を含んだ線形回帰モデルが登場し、そしてそのモデルに対する推定・検定の理論を学ぶ。
教養レベルの本でも最小二乗法という言葉は必ず出て来るが、最小二乗推定量という言葉は出て来たり来なかったりである。
前述の通り回帰というと説明変数を使って目的変数の振る舞いを記述するという側面が強く、機械学習の普及も相まって、推定の理論を駆使して精度の高いモデルを如何に作り上げるかということが注目されがちである。
しかし数理統計学では後述の1元配置分散分析の様に、ある要素が影響を与えたと言えるか検証するための線形回帰モデルの検定(変数の有意性検定)も重視している。
7.推定量の評価
教養レベルの統計学の本で出て来るのは、最尤推定量と不偏推定量と最小二乗推定量の3つ程度であるが、推定量の評価は「母集団のパラメータを推定するための良い推定量を探す」という非常に重要な理論である。
7.1.推定の理論
推定量が真のパラメータに確率的に近くなるということの自然な基準のひとつとして、平均2乗誤差(MSE) を小さくすることが挙げられる。
MSEにバイアス-バリアンス分解を行うことにより、不偏推定量に対してはMSEは推定量の分散と等しくなる。
不偏推定量で分散が最も小さい推定量を一様最小分散不偏推定量と呼ぶ。
分散の下限はクラメール・ラオの不等式により求められる。クラメール・ラオの不等式の下限を達成している不偏推定量を有効推定量と呼ぶ。有効推定量は一様最小分散不偏推定量である。
(クラメール・ラオの不等式の証明は、例えば「藤田 岳彦著 弱点克服 大学生の確率・統計」参照。)
有効推定量は必ず存在するとは限らない。(例えば「日本統計学会公式認定 統計検定1級対応 統計学」参照。)
7.2.回帰分析における推定量の評価
最小2乗推定量(LSE)は線形推定量であり不偏推定量にもなっている。このような推定量を線形不偏推定量と呼ぶ。
線形不偏推定量の中で平均2乗誤差(MSE)を最小にする 最良線形不偏推定量(BLUE) と呼ぶ。
最小2乗推定量はガウス・マルコフの定理より最良線形不偏推定量(BLUE)となる。
このような事情もあってか、機械学習の分野では平均2乗誤差(MSE)という言葉が、実績値とモデルの実現値との差の二乗和という意味で使われている。
8.漸近理論
標本サイズnが大きい時の推定量の漸近的な評価基準として、一致性と漸近有効性がある。
一致推定量(+チェビシェフの不等式)、漸近分散、漸近有効性、漸近正規性について学び、最尤推定量の一致性、漸近正規性、漸近有効性について学ぶ。
9.分散分析
分散の分析ではなく、分散を使った母平均の検定である。従ってt検定と同じカテゴリーに属する。t検定と違い母集団が3群以上の場合でも対応できる。計算に使うのは分散(平均平方(=平方和/自由度))の比なのでF値を計算する。
モデルを仮定することで平均平方の期待値を式で表すことが出来る。そしてその式を基に、帰無仮説を検定する際にF値を用いることが導かれる。
分散分析ではどの水準間で差があるのかについてまで特定することはできない。もし、複数ある水準のどの水準間で平均値の差があるかまで調べたい場合には、テューキー法のような多重検定と呼ばれる手法を導入する必要がある。
理論的には分散分析モデルは計画行列(デザイン行列) として0と1からなる特殊な行列を用いた線形モデルと考えることができる。
だが分散分析は検定(F検定)を行うことが半ば前提となっている。用語についても水準や要因といった独特の用語を使用する。そして母平均μ_iを一般平均μと主効果α_iに分解する。
線形回帰モデルでは一般に、計画行列Xの列ベクトルが全て一次独立であること(⇔X^TXが正則)であることを仮定するが、分散分析では通常フルランクであることを仮定しない。
(回帰モデルでも仮定しないこともある。)
2元配置分散分析では交互作用A×Bが発生する。交互作用がある場合は、各水準の組から1つずつ観測値を得るだけでは不十分である。何故なら、データの構造式において交互作用とランダム変動の区別がつかないからである。
10.分割法実験
多元配置において、無作為化を段階的に行う方法を分割法という。1次誤差と2次誤差が現れる。
分割法を用いると実験数が減るが、1次因子、2次因子、それらの交互作用の検証がしにくくなる。
11.実験計画
素朴な目的意識は「如何に実験回数を削減するか」である。
実験計画法は、どの因子が重要か選別するスクリーニング実験と、選別した因子に対して曲面性も考慮して行う最適化実験の2つに大別することが出来る。
前者は完全実施計画や直交表などが当てはまり、後者の代表的な手法が中心複合計画と呼ばれるものである。
実験計画法と言えば多くの場合、前者のことを指し、特に2水準系直交表による実験計画のことを指すことが多い。
完全実施要因計画(2^p型計画)とは全ての組み合わせを実施する実験計画であり、実験回数を減らした計画を一部実施要因計画という。
Discussion