📊

[統計学] カテゴリ分布の定義, 期待値と分散

2022/11/26に公開

確率質量分布

1回の試行で $X_1, \cdots X_K$ がそれぞれ確率 $\mu_1, \cdots \mu_K$ によって得られるとき, 確率変数 $X=[X_1, \cdots ,X_K]$ が従う分布をカテゴリ分布という. カテゴリ分布の確率質量分布は以下である.

\begin{align*} Cat(\mathbf{x}|\mu) &= \prod_{k=1}^K \mu_k^{x_k} \\ \text{Where,} \; K &\in \N,\; 2 \leq K \\ \mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\} \\ \mathbf{\mu} &= [\mu_1, \cdots ,\mu_K], \; \sum_k \mu_k=1, \; \forall \mu_k \in [0,1] \end{align*}

その際に以下のことに気を付けたい

$X$ の実現値はベクトル
- 特に, $\mathbf{x} = [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}$ のようなベクトルをone hot vectorという
$P(X=\mathbf{x})$ はスカラー
$\mathbb{E}(X_k)$ はスカラー

例えば, $K=3$ のカテゴリ分布に従う確率変数 $X$ が $[0,1,0]$ をとる確率は以下のようになる.

\begin{align*} P(X=[0,1,0]) &= \prod_{k=1}^3\mu_k^{x_k} \\ &= \mu_1^{x_1} \cdot \mu_2^{x_2} \cdot \mu_3^{x_3} \\ &= \mu_1^{0} \cdot \mu_2^{1} \cdot \mu_3^{0} \\ &= 1 \cdot \mu_2^{1} \cdot 1 \\ &= \mu_2 \end{align*}

カテゴリ分布に従う変数の具体例としては

1-Kまでの番号が書かれたクジを引いたときの事象
- one hot vectorで記述すると1のクジを $[1,\cdots,0]$ と記述できる
- 他の番号でも同じように記述できる
サイコロの出目
- one hot vectorで記述すると2の目を $[0,1,\cdots,0]$ と記述できる
- 他の番号でも同じように記述できる

カテゴリ分布の使用例として下記のような例がある

自然言語処理の手法の一つであるLatent Dirichlet Allocation(潜在的ディリクレ分配法)のトピックごとの単語分布, 文書ごとのトピック分布として使用

導出にあたり, 以下に注意する.

\begin{align*} \mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}\; \text{ならば以下が成り立つ} \\ \exist k' &\in K\;\text{s.t}\; x_{k'}=1, \;\forall k \ne k', \; x_k=0 \end{align*}

$x_k$ の期待値を求める.

\begin{align*} \mathbb{E}(X_k) &= x_kP(x_k)+\bar{x_k}P(\bar{x_k})\\ &= x_kCat(\mathbf{x}|\mathbf{\mu}) \end{align*}

ただし, $\mathbf{x}$ は $k'=k$ とする.

\begin{align*} \mathbb{E}(X_k) &= x_kP(x_k)+x_kP(\bar{x_k})\\ &= x_kCat(\mathbf{x}|\mathbf{\mu}) \\ &= x_k \prod_{c=1}^K\mu_c^{x_c} \\ &= x_k\biggl( \mu_k^{x_k} \cdot \prod_{c \in C,c\ne k}\mu_c^{x_c} \biggr) \\ &= 1\biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}\mu_c^{0} \biggr) \\ &= \biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}1 \biggr) \\ &= \mu_k \end{align*}

1行目は $x_k$ が起こる事象とそれ以外が起こる事象に分けて考えている.
2行目は $x_k$ が起こらないとき $x_k=0$ であるから除去をしている.
3行目は $k$ との混同を避けるため, $C,c$ をカテゴリ数, 添え字として使っている

一次のモーメント(期待値)と同様にして, 二次のモーメントを求める.

\begin{align*} \mathbb{E}(X_k^2) &= x_k^2P(x_k)+x_k^2P(\bar{x_k})\\ &= x_k^2Cat(\mathbf{x}|\mathbf{\mu}) \\ &= x_k^2 \prod_{c=1}^K\mu_c^{x_c} \\ &= x_k^2\biggl( \mu_k^{x_k} \cdot \prod_{c \in C,c\ne k}\mu_c^{x_c} \biggr) \\ &= 1\biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}\mu_c^{0} \biggr) \\ &= \biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}1 \biggr) \\ &= \mu_k \end{align*}

よって,

\begin{align*} \mathbb{V}(X_k^2) &= \mathbb{E}(X_k^2) - \mathbb{E}(X_k)^2\\ &= \mu_k - \mu_k^2\\ &= \mu_k(1-\mu_k) \end{align*}