確率質量分布
1回の試行でX_1, \cdots X_Kがそれぞれ確率 \mu_1, \cdots \mu_K によって得られるとき, 確率変数 X=[X_1, \cdots ,X_K] が従う分布をカテゴリ分布という. カテゴリ分布の確率質量分布は以下である.
\begin{align*}
Cat(\mathbf{x}|\mu)
&=
\prod_{k=1}^K \mu_k^{x_k}
\\
\text{Where,} \;
K &\in \N,\; 2 \leq K
\\
\mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}
\\
\mathbf{\mu} &= [\mu_1, \cdots ,\mu_K], \; \sum_k \mu_k=1, \; \forall \mu_k \in [0,1]
\end{align*}
その際に以下のことに気を付けたい
-
X の実現値はベクトル
- 特に, \mathbf{x} = [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}のようなベクトルをone hot vectorという
-
P(X=\mathbf{x}) はスカラー
-
\mathbb{E}(X_k) はスカラー
例えば, K=3 のカテゴリ分布に従う確率変数 X が[0,1,0] をとる確率は以下のようになる.
\begin{align*}
P(X=[0,1,0])
&=
\prod_{k=1}^3\mu_k^{x_k}
\\
&=
\mu_1^{x_1}
\cdot
\mu_2^{x_2}
\cdot
\mu_3^{x_3}
\\
&=
\mu_1^{0}
\cdot
\mu_2^{1}
\cdot
\mu_3^{0}
\\
&=
1
\cdot
\mu_2^{1}
\cdot
1
\\
&=
\mu_2
\end{align*}
カテゴリ分布に従う変数の具体例としては
- 1-Kまでの番号が書かれたクジを引いたときの事象
- one hot vectorで記述すると1のクジを [1,\cdots,0] と記述できる
- 他の番号でも同じように記述できる
- サイコロの出目
- one hot vectorで記述すると2の目を [0,1,\cdots,0] と記述できる
- 他の番号でも同じように記述できる
カテゴリ分布の使用例として下記のような例がある
- 自然言語処理の手法の一つであるLatent Dirichlet Allocation(潜在的ディリクレ分配法)のトピックごとの単語分布, 文書ごとのトピック分布として使用
期待値・分散
導出にあたり, 以下に注意する.
\begin{align*}
\mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}\; \text{ならば以下が成り立つ}
\\
\exist k' &\in K\;\text{s.t}\; x_{k'}=1, \;\forall k \ne k', \; x_k=0
\end{align*}
期待値
x_k の期待値を求める.
\begin{align*}
\mathbb{E}(X_k)
&=
x_kP(x_k)+\bar{x_k}P(\bar{x_k})\\
&=
x_kCat(\mathbf{x}|\mathbf{\mu})
\end{align*}
ただし, \mathbf{x} は k'=k とする.
\begin{align*}
\mathbb{E}(X_k)
&=
x_kP(x_k)+x_kP(\bar{x_k})\\
&=
x_kCat(\mathbf{x}|\mathbf{\mu})
\\
&=
x_k \prod_{c=1}^K\mu_c^{x_c}
\\
&=
x_k\biggl(
\mu_k^{x_k}
\cdot
\prod_{c \in C,c\ne k}\mu_c^{x_c}
\biggr)
\\
&=
1\biggl(
\mu_k^{1}
\cdot
\prod_{c \in C,c\ne k}\mu_c^{0}
\biggr)
\\
&=
\biggl(
\mu_k^{1}
\cdot
\prod_{c \in C,c\ne k}1
\biggr)
\\
&=
\mu_k
\end{align*}
1行目は x_k が起こる事象とそれ以外が起こる事象に分けて考えている.
2行目は x_k が起こらないとき x_k=0であるから除去をしている.
3行目はk との混同を避けるため, C,c をカテゴリ数, 添え字として使っている
分散
一次のモーメント(期待値)と同様にして, 二次のモーメントを求める.
\begin{align*}
\mathbb{E}(X_k^2)
&=
x_k^2P(x_k)+x_k^2P(\bar{x_k})\\
&=
x_k^2Cat(\mathbf{x}|\mathbf{\mu})
\\
&=
x_k^2 \prod_{c=1}^K\mu_c^{x_c}
\\
&=
x_k^2\biggl(
\mu_k^{x_k}
\cdot
\prod_{c \in C,c\ne k}\mu_c^{x_c}
\biggr)
\\
&=
1\biggl(
\mu_k^{1}
\cdot
\prod_{c \in C,c\ne k}\mu_c^{0}
\biggr)
\\
&=
\biggl(
\mu_k^{1}
\cdot
\prod_{c \in C,c\ne k}1
\biggr)
\\
&=
\mu_k
\end{align*}
よって,
\begin{align*}
\mathbb{V}(X_k^2) &= \mathbb{E}(X_k^2) - \mathbb{E}(X_k)^2\\
&=
\mu_k - \mu_k^2\\
&=
\mu_k(1-\mu_k)
\end{align*}
参考文献
(1)C.M.ビショップ.”パターン認識と機械学習 上 ベイズ理論による統計的予測”.2019.丸善出版株式会社
(2)岩田具治.”トピックモデル”.2015.株式会社講談社サイエンティフィク
(3)須山敦志.”機械学習スタートアップシリーズ ベイズ推論による機械学習入門”.2018.株式会社講談社サイエンティフィク
Discussion