統計検定1級に関する資料を不定期で投稿していこうと思います.
今回は2018年度医薬生物学の問1です.テーマとしては生存時間解析におけるサンプルサイズ設計といったところです.解答の前に前提知識などをまとめた方が見通しがよくなると思うので,そちらに焦点をあてた記事にしようと思います.(1)(2)の解答には生存時間解析における尤度の考え方,(4)(5)の解答にはデルタ法,もといテーラー展開を理解している必要があります.
*----------------------------------------------------------------------------------;
生存時間を表す確率変数Tは今回はパラメータ\lambdaの指数分布とあります.確率密度関数f(t)は以下のように表されます.
f(t)=
\begin{cases}
\lambda e^{-\lambda t}(t \le 0)\\
0(t < 0)
\end{cases}
このとき,生存関数S(t)は以下のように表されます.生存関数は(右側)打ち切りが存在する場合に尤度関数を作成するために使われます.
これは確率密度関数から\lambdaを取り除いたものなので覚えやすいですね.
以上の道具から,パラメータ\lambdaに関する尤度関数L(\lambda)を考えます.互いに独立なn人の対象者から生存時間の組(t_1,...,t_n)が観測されたとします.
case1.打ち切りがない場合
これはシンプルにn個の独立な確率変数の同時分布を考えてあげればよいです.
求める尤度関数L(\lambda)は,
L(\lambda)=\prod_{i=1}^{n}f(t_i)=\prod_{i=1}^{n}\lambda e^{-\lambda t_i}
となります.
case2.右側打ち切りが存在する場合
打ち切りを表すインディケーター\delta_iを導入します.定義は以下の通りです.
\delta_i=
\begin{cases}
0(対象者iが打ち切りあり)\\
1(対象者iが打ち切りなし)
\end{cases}
\delta_i=1,つまり打ち切りが起きていないとき,個人iの尤度は確率密度に一致します(case1参照).しかし,\delta_i=0,つまり打ち切られていないときの尤度の考え方に注意が必要です.打ち切りと欠測の違いが理解できているかが一つの考え方のポイントかと思います.打ち切りとは「少なくとも打ち切りが起きたその時点まではイベントを起こしていなかった」と考えることができるので,生存関数S(t_i)で考えるのが適切です.以上より求める尤度関数L(\lambda)は,
L(\lambda)=\prod_{i=1}^{n}{f(t_i)}^{\delta_i}{S(t_i)}^{1-\delta_i}=\prod_{i=1}^{n}\lambda^{\delta_i} e^{-\lambda t_i}
となります.
*----------------------------------------------------------------------------------;
次にテーラー展開とデルタ法について考えます.テーラー展開とはざっくり言うと関数の近似の方法です.特に統計学の分野ではせいぜい二次の項までの近似なので以下のように覚えておけばよいです.
適当な正則条件を満たす関数f(x)に対し,点x=\muのまわりで二次の項までテーラー展開すると以下を得ます.
f(x)=f(\mu)+f'(\mu)(x-\mu)+\frac{1}{2}f''(\mu)(x-\mu)
これはまったく等号で成立するわけではありませんが,見やすさのためそのように表現しています.ここで変数xを確率変数Xと見てみましょう.さらにその確率変数Xの期待値を\muとします.そのように考えて両辺に分散Varを取ってやると以下を得ます.
Var{f(X)}={f'(\mu)}^2Var(X)+\frac{1}{2}{f''(\mu)}^2Var(X)
これがまさにデルタ法の考え方です.
統計検定の問ではf(X_1)=log\lambda_1,f(X_2)=log\lambda_2と考えてやればよいことになります.
Discussion