はじめに
この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。
【リンク紹介】
・統計検定準1級のまとめ記事一覧
・これまで書いたシリーズ記事一覧
学習書籍について
この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。
参考書籍について
統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。
ベイズの定理(Bayes's Theorem)
\Omega:全事象
A_1, A_2, \cdots, A_k:事象(kは自然数)
B:事象
とする。このとき、次の2つの条件
A_i \neq A_j \ \ \ (i \neq j), \\
A_1 \cup A_2 \cup \cdots \cup A_k = \Omega
が成り立つとき、Bが起きたときのA_iが起きる条件付き確率は、以下の式で表される。
\begin{alignat*}{2}
P(A_i | B) &= \cfrac{P(B|A_i) P(A_i)}{\sum_{j=1}^{k} P(B|A_j) P(A_j)} \\
&= \cfrac{P(B|A_i) P(A_i)}{P(B|A_1) P(A_1) + P(B|A_2) P(A_2) + \cdots + P(B|A_k) P(A_k)}
\end{alignat*}
例
今、事象A_1, A_2, \cdots, A_kを原因、事象Bをその結果とします。
このとき、私たちは一般的に原因に対する結果の確率をよく考えます。
例えば、
A_1:毎日ゲームをしている(原因)
A_2:毎日5時間勉強している(原因)
B:試験に合格する(結果)
とするとき、
A_1を選ぶことに対してBを得る確率P(B|A_1)と
A_2を選ぶことに対してBを得る確率P(B|A_2)を考えることは、よくあることだと思います。
しかし現実にはその逆、つまり結果に対する原因の確率について知りたいときがあります。
そんなときにこのベイズの定理を用いて確率を求めます。
例題
(「統計学入門」より参考)
とある病気を診断するための検査法があるとする。このとき
C:被検査者はとある病気に罹っているという事象
A:検査の結果が被権者はとある病気に罹っていることを示す(検査結果が陽性である)という事象
であるとする。また、
P(A|C) = 0.95:とある病気に罹っている人が検査結果で陽性になる確率
P(A^c|C^c) = 0.95:とある病気に罹っていない人が陰性となる確率
P(C) = 0.005:とある病気である確率
であるとします。このとき、
(1) P(C|A)(検査結果が陽性である(結果)とき、とある病気に罹っている(原因)確率)を求めなさい。
(2) (1)において、検査の信頼性が0.95ではなく、
\begin{alignat*}{2}
P(A|C) &= P(A^c|C^c) \\
&= R \ \ \ (ただし、0 < R < 1)
\end{alignat*}
とする。ただし、P(C)の値は変わらないとする。このとき、
となるためには、Rはどの範囲であるべきか。
解答
(1)の解答
C \neq C^cかつC \cup C^c = \Omegaであるため、求める式は
P(C|A) = \cfrac{P(A|C) P(C)}{P(A|C) P(C) + P(A|C^c) P(C^c)} \cdots ①
と表せる。P(A|C)、P(A^c|C^c)、P(C)の値は与えられているため、P(C^c)、P(A|C^c)の値を求める。
まずP(C^c)を求める。
\begin{alignat*}{2}
P(C^c) &= 1 - P(C) \\
&= 1 - 0.005 \\
&= 0.995 \cdots ②
\end{alignat*}
次にP(A|C^c)を求める。求める式は
P(A|C^c) = \cfrac{P(A \cap C^c)}{P(C^c)} \cdots ③
である。ここでP(A \cap C^c)を求める。A \cup A^c = \Omegaに着目すると、
\begin{alignat*}{2}
C^c &= \Omega \cap C^c \\
&= (A \cup A^c) \cap C^c \\
&= (A \cap C^c) \cup (A^c \cap C^c) \\
\end{alignat*}
である。ここで、(A \cap C^c) \cap (A^c \cap C^c) = \varnothingであることより
P(C^c) = P(A \cap C^c) + P(A^c \cap C^c)
が成り立つので、
\begin{alignat*}{2}
P(A \cap C^c) &= P(C^c) - P(A^c \cap C^c) \\
&= P(C^c) - P(C^c)P(A^c|C^c) \\
&= P(C^c) (1 - P(A^c|C^c)) \\
&= 0.995 \times (1 - 0.95) \\
&= 0.995 \times 0.05 \\
&= 0.04975 \cdots ④
\end{alignat*}
となる。よって②、③、④より、P(A|C^c)は
\begin{alignat*}{2}
P(A|C^c) &= \cfrac{P(A \cap C^c)}{P(C^c)} \hspace{19mm} \\
&= \cfrac{0.04975}{0.995} \\
&= \cfrac{0.04975}{0.995} \\
&= 0.05 \cdots ⑤
\end{alignat*}
となる。以上①、②、⑤より、求めるP(C|A)の値は
\begin{alignat*}{2}
P(C|A) &= \cfrac{P(A|C) P(C)}{P(A|C) P(C) + P(A|C^c) P(C^c)} \\
&= \cfrac{0.95 \times 0.005}{0.95 \times 0.005 + 0.05 \times 0.995} \\
&= \cfrac{0.00475}{0.00475 + 0.04975} \\
&= \cfrac{475}{475 + 4975} \\
&= \cfrac{475}{5450} \\
&= \underline{0.0871}
\end{alignat*}
(2)の解答
(1)より、
\begin{alignat*}{2}
P(C|A) &= \cfrac{P(A|C) P(C)}{P(A|C) P(C) + P(A|C^c) P(C^c)} \cdots ⑥ \\
\end{alignat*}
である。ここで、P(A|C) = P(A^c|C^c) = Rより
\begin{alignat*}{2}
P(C|A) &= \cfrac{P(A|C) P(C)}{P(A|C) P(C) + P(A|C^c) P(C^c)} \\
&= \cfrac{R \times P(C)}{R \times P(C) + P(A|C^c) P(C^c)}
\end{alignat*}
と表せる。ここで今、P(A|C^c)をRを用いて表したい。
(1)より
P(C^c) = P(A \cap C^c) + P(A^c \cap C^c)
であり、またP(C^c) = 0.995 \neq 0であるため
\begin{alignat*}{2}
P(C^c) &= P(A \cap C^c) + P(A^c \cap C^c) \\
1 &= \cfrac{P(A \cap C^c)}{P(C^c)} + \cfrac{P(A^c \cap C^c)}{P(C^c)} \\
1 &= P(A|C^c) + P(A^c|C^c) \\
P(A|C^c) &= 1 - P(A^c|C^c) \\
&= 1 - R \cdots ⑦
\end{alignat*}
が成り立つ。よって⑥、⑦より
\begin{alignat*}{2}
P(C|A) &\geqq 0.9 \\
\cfrac{P(A|C) P(C)}{P(A|C) P(C) + P(A|C^c) P(C^c)} & \geqq 0.9 \hspace{5cm} \\
\cfrac{R \times P(C)}
{R \times P(C) + P(A|C^c) P(C^c)} & \geqq 0.9 \\
\cfrac{R \times P(C)}
{R \times P(C) + (1 - R) P(C^c)} & \geqq 0.9 \\
\cfrac{0.005R}{0.005R + 0.995(1 - R)} & \geqq 0.9 \\
\cfrac{R}{R + 199(1 - R)} & \geqq 0.9 \\
\cfrac{R}{199 - 198R} & \geqq 0.9 \\
\end{alignat*}
となる。ここで、0 < R < 1より199 - 198R > 0であるから
\begin{alignat*}{2}
\cfrac{R}{199 - 198R} & \geqq 0.9 \\
R & \geqq 0.9(199 - 198R) \\
R & \geqq 179.1 - 178.2R \\
179.2R & \geqq 179.1 \\
R & \geqq 0.99944196
\end{alignat*}
よって、Rの範囲は\underline{R \geqq 0.9994}である。
参考資料
\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします
Discussion