📊

[統計学] カテゴリ分布の定義, 期待値と分散

2022/11/26に公開

確率質量分布

1回の試行でX_1, \cdots X_Kがそれぞれ確率 \mu_1, \cdots \mu_K によって得られるとき, 確率変数 X=[X_1, \cdots ,X_K] が従う分布をカテゴリ分布という. カテゴリ分布の確率質量分布は以下である.

\begin{align*} Cat(\mathbf{x}|\mu) &= \prod_{k=1}^K \mu_k^{x_k} \\ \text{Where,} \; K &\in \N,\; 2 \leq K \\ \mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\} \\ \mathbf{\mu} &= [\mu_1, \cdots ,\mu_K], \; \sum_k \mu_k=1, \; \forall \mu_k \in [0,1] \end{align*}

その際に以下のことに気を付けたい

  • X の実現値はベクトル
    • 特に, \mathbf{x} = [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}のようなベクトルをone hot vectorという
  • P(X=\mathbf{x}) はスカラー
  • \mathbb{E}(X_k) はスカラー

例えば, K=3 のカテゴリ分布に従う確率変数 X[0,1,0] をとる確率は以下のようになる.

\begin{align*} P(X=[0,1,0]) &= \prod_{k=1}^3\mu_k^{x_k} \\ &= \mu_1^{x_1} \cdot \mu_2^{x_2} \cdot \mu_3^{x_3} \\ &= \mu_1^{0} \cdot \mu_2^{1} \cdot \mu_3^{0} \\ &= 1 \cdot \mu_2^{1} \cdot 1 \\ &= \mu_2 \end{align*}

カテゴリ分布に従う変数の具体例としては

  • 1-Kまでの番号が書かれたクジを引いたときの事象
    • one hot vectorで記述すると1のクジを [1,\cdots,0] と記述できる
    • 他の番号でも同じように記述できる
  • サイコロの出目
    • one hot vectorで記述すると2の目を [0,1,\cdots,0] と記述できる
    • 他の番号でも同じように記述できる

カテゴリ分布の使用例として下記のような例がある

  • 自然言語処理の手法の一つであるLatent Dirichlet Allocation(潜在的ディリクレ分配法)のトピックごとの単語分布, 文書ごとのトピック分布として使用

期待値・分散

導出にあたり, 以下に注意する.

\begin{align*} \mathbf{x} &= [x_1, \cdots ,x_K], \; \sum_k x_k=1, \; \forall x_k \in \{0,1\}\; \text{ならば以下が成り立つ} \\ \exist k' &\in K\;\text{s.t}\; x_{k'}=1, \;\forall k \ne k', \; x_k=0 \end{align*}

期待値

x_k の期待値を求める.

\begin{align*} \mathbb{E}(X_k) &= x_kP(x_k)+\bar{x_k}P(\bar{x_k})\\ &= x_kCat(\mathbf{x}|\mathbf{\mu}) \end{align*}

ただし, \mathbf{x}k'=k とする.

\begin{align*} \mathbb{E}(X_k) &= x_kP(x_k)+x_kP(\bar{x_k})\\ &= x_kCat(\mathbf{x}|\mathbf{\mu}) \\ &= x_k \prod_{c=1}^K\mu_c^{x_c} \\ &= x_k\biggl( \mu_k^{x_k} \cdot \prod_{c \in C,c\ne k}\mu_c^{x_c} \biggr) \\ &= 1\biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}\mu_c^{0} \biggr) \\ &= \biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}1 \biggr) \\ &= \mu_k \end{align*}

1行目は x_k が起こる事象とそれ以外が起こる事象に分けて考えている.
2行目は x_k が起こらないとき x_k=0であるから除去をしている.
3行目はk との混同を避けるため, C,c をカテゴリ数, 添え字として使っている

分散

一次のモーメント(期待値)と同様にして, 二次のモーメントを求める.

\begin{align*} \mathbb{E}(X_k^2) &= x_k^2P(x_k)+x_k^2P(\bar{x_k})\\ &= x_k^2Cat(\mathbf{x}|\mathbf{\mu}) \\ &= x_k^2 \prod_{c=1}^K\mu_c^{x_c} \\ &= x_k^2\biggl( \mu_k^{x_k} \cdot \prod_{c \in C,c\ne k}\mu_c^{x_c} \biggr) \\ &= 1\biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}\mu_c^{0} \biggr) \\ &= \biggl( \mu_k^{1} \cdot \prod_{c \in C,c\ne k}1 \biggr) \\ &= \mu_k \end{align*}

よって,

\begin{align*} \mathbb{V}(X_k^2) &= \mathbb{E}(X_k^2) - \mathbb{E}(X_k)^2\\ &= \mu_k - \mu_k^2\\ &= \mu_k(1-\mu_k) \end{align*}

参考文献

(1)C.M.ビショップ.”パターン認識と機械学習 上 ベイズ理論による統計的予測”.2019.丸善出版株式会社
(2)岩田具治.”トピックモデル”.2015.株式会社講談社サイエンティフィク
(3)須山敦志.”機械学習スタートアップシリーズ ベイズ推論による機械学習入門”.2018.株式会社講談社サイエンティフィク

Discussion