はじめに
今回は大規模計算時代の統計推論10.3のベイズ的ブートストラップについて説明していきます。
問題
G1,G2,...,Gn i.i.d. Gam(1,1)のとき
P∗=(G1,G2,...,Gn)′/i=1∑nGi(10.44)
この式の平均と共分散行列を求める。
P0=(1/n,...,1/n)′ とする。
P∗∼[P0,n+11(diag(P0)−P0P0′)](10.45)
これを解く鍵は、ガンマ分布とディリクレ分布の関係を理解すること。
準備
必要な知識を先にまとめておく。
ガンマ分布
X∼Gam(a,b)のときf(x)=Γ(a)ba1xa−1e−x/b,x>0
ディリクレ分布
パラメータを α=(α1,...,αn) , 確率変数を x=(x1,...,xn)とするとき
f(x;α)=∏i=1nΓ(αi)Γ(∑i=1nαi)i=1∏nxiαi−1,xi≥0,i=1∑nxi=1
証明
一般的に考えるために次にようなものを考える。記号も変えているので注意。
XiYi∼Gam(αi,1)=∑j=1nXjXi,i=1∑nYi=1
こうするとP∗=(Y1,...,Yn)である。
データは次のように書ける。
yi=∑j=1nxjxi,i=1∑nyi=1
逆変換を考えると、
xi=yij=1∑nxj=yiz,z=j=1∑nxj
ヤコビアンを考える
J=∂x1/∂y1∂xn−1/∂y1∂xn/∂y1⋯⋮⋯⋯∂x1/∂yn−1∂xn−1/∂yn−1∂xn/∂yn−1∂x1/∂z∂xn−1/∂z∂xn/∂z=z−z ⋱0⋯ 0⋱⋯z−zy1⋮yn−1yn=z0⋱00⋱⋯z0y1⋮yn−11=zn−1
z≥0 より∣J∣=zn−1 である。
次に、 y1,...,yn−1 の同時確率密度関数を計算する。周辺化とガンマ分布を使って次のように計算できる。
f(y1,...,yn−1)=∫0∞f(y1,...,yn−1,z)dz=∫0∞i=1∏n{Γ(αi)1(yiz)αi−1e−yiz}zn−1dz=Γ(α1)⋯Γ(αn)1i=1∏nyiαi−1∫0∞z∑i=1nαi−nez∑i=1nyizn−1dz=Γ(α1)⋯Γ(αn)1i=1∏nyiαi−1∫0∞z∑i=1nαi−1ezdz=Γ(α1)⋯Γ(αn)Γ(∑i=1nαi)i=1∏nyiαi−1
よって y1,...,yn−1 はディリクレ分布に従うことがわかる。
したがって式(10.45)を求めるには、ディリクレ分布の期待値と共分散行列を求めれば良いことがわかった。
期待値は
E[Yi]=∑i=1nαiαi(1)
分散は
Var[Yi]=(∑i=1nαi+1)(∑i=1nαi)2αi(∑i=1nαi−αi)(2)
共分散は
Cov[Yi,Yj]=−(∑i=1nαi)2(∑i=1nαi+1)αiαj(3)
α=(1,...,1) のとき
(1)よりP∗=(P1∗,...,Pn∗)′ の期待値は
E[Pi∗]=1/n
よって
E[P∗]=P0(4)
(2),(3)よりP∗ の共分散行列は
Var[Pi∗]=(n+1)n2n−1,Cov[Pi∗,Pj∗]=−(n+1)n21
よって
Var[P∗]=n+11(diag(P0)−P0P0′)(5)
よって示すことができた。
参考文献
- B.エフロン,T.J.ヘイスティ(2020)『大規模計算時代の統計推論: 原理と発展』 藤澤洋徳・井手剛監訳 (共立出版)
- ディリクレ分布の期待値,分散,共分散の導出
https://zenn.dev/totopironote/articles/b819785d547d14
Discussion