調べ物をしていたら、商品の購買回数を確率変数と見立てると、負の二項分布に従うという情報を見つけました。計算は普通なのですが、結論がトリッキーなので、簡単にメモするつもりで記事にまとめてみます。購買回数の分布がわかっていると、商品の購入データを擬似的に生成したり、あるいは現実の購買データを分析するときに便利なので、そのうち使う機会があるかもしれません。
仮定
負の二項分布を導くために、以下のような仮定をおきます。
- 任意の消費者が単位期間中に商品を購入する回数はポアソン分布に従う。
- 消費者の平均購入回数はガンマ分布に従う。
1. 単位期間中の購入回数はポアソン分布
任意の 1 人の消費者にフォーカスして考えます。例えば、毎月ミネラルウォーターを購入する人がいたとします。水を飲む量は毎日微妙に違うため、月によって購入する量は 12 本だったり、9 本だったり、まちまちですが、平均では 10 本購入しているものとします。このとき、1 ヶ月間に購入する本数は \lambda = 10 のポアソン分布に従って決まると仮定します。
ポアソン分布は以下の式で記述される確率分布で、平均で \lambda 回購入する消費者がある期間中に商品を購入する回数 k の確率に対応します。
P(X = k | \lambda) = \frac{\lambda^k \exp(-\lambda)}{k!}
ここで、ポアソン分布を仮定する意味について考えてみます。1 秒や 1 ミリ秒、あるいはそれ以下まで期間を非常に細かく分割していき、各期間において購買個数は 0 個か 1 個だと考えてみます。そうなると、購買回数は二項分布 B(n, p) に従うことがわかります。二項分布の平均 np = \lambda を一定値に固定して、n \to \infty, p \to 0 に近づけていくと、ポアソン分布が導けることが知られています。つまり、ポアソン分布を仮定することは、商品が購入者の目に留まる回数が非常に多い(=試行回数 n が大きい)が、その中で購入される確率 p は小さいような状況を想定していると考えられます。実際、商品を見かける回数よりも購入する回数は圧倒的に小さいので、このような仮定は自然に思えます。
2. 購入回数はガンマ分布
先程は消費者個人に焦点を当てましたが、次は全体を見てみます。平均の購入回数 \lambda は消費者によって異なることは、直感的に理解できると思います。ここでは、平均購入回数 \lambda は次のガンマ分布に従うものと仮定します。
P(\lambda | \alpha, \beta) = \frac{\beta^\alpha \lambda^{\alpha - 1} \exp(-\beta \lambda)}{\Gamma(\alpha)}
ガンマ分布は指数分布やカイ二乗分布を一般化した確率分布で、電子部品の寿命や所得の分布など、いろいろなところで応用されています。\alpha = 1 とすると、指数分布 \mathrm{Ga}(\lambda | 1, \beta) = \beta \exp(-\beta \lambda) に一致します。
先ほどと同様に、ガンマ分布を仮定している意味について考えてみます。毎月 10 本ミネラルウォーターを飲む人もいれば、20 本飲む人もいるし、全く飲まない水道水派の人もいるでしょう。個人的な経験談として、消費者ごとの購入回数のヒストグラムを取ると、概ね指数分布に近い形になる気がしています。ほとんどの消費者は全く商品を買ってくれません。少しだけ買ってくれる人もいますが、多くの消費者は 1, 2 回購入すると離脱してしまいます。何度も商品を購入してくれるリピーターは非常に少ないですが、ある程度良い商品であれば、少ないながらもたくさん買ってくれるファンは一定数存在し、ファットテールを形成します。図示すると、以下のようになります。
指数分布を一般化したものがガンマ分布なので、\lambda がガンマ分布に従うことを仮定するのは妥当と考えられます。
購買回数の分布の導出
購買回数の分布として、パラメータ \alpha, \beta のもとで購入される回数 k を求めたいので、
P(X = k | \alpha, \beta) = \int^\infty_0 P(X = k | \lambda) P(\lambda | \alpha, \beta) \,\mathrm{d}\lambda
を計算すれば良いことになります。
\begin{align*}
P(X = k | \alpha, \beta)
& = \int^\infty_0 \frac{\lambda^k \exp(-\lambda)}{k!} \frac{\beta^\alpha \lambda^{\alpha - 1} \exp(-\beta \lambda)}{\Gamma(\alpha)} \,\mathrm{d}\lambda \\\\
& = \frac{\beta^\alpha}{k! \Gamma(\alpha)} \int^\infty_0 \lambda^{k + \alpha - 1} \exp(-(1+\beta) \lambda) \,\mathrm{d}\lambda
\end{align*}
積分の中に (1+\beta)^{k+\alpha} / \Gamma(k + \alpha) を掛けて、積分の外にその逆数をかけることで相殺します。
P(X = k | \alpha, \beta)
= \frac{\beta^\alpha}{k! \Gamma(\alpha)}
\frac{\Gamma(k + \alpha)}{(1+\beta)^{k+\alpha}}
\int^\infty_0 \underbrace{
\frac{(1+\beta)^{k+\alpha} \lambda^{k + \alpha - 1} \exp(-(1+\beta) \lambda)}{\Gamma(k + \alpha)}
}_{= \mathit{Ga}(\lambda, k + \alpha, 1 + \beta)} \,\mathrm{d}\lambda
そうすると、積分の中身が \mathit{Ga}(\lambda, k + \alpha, 1 + \beta) のガンマ分布となります。ガンマ分布を 0 から無限大まで積分すると 1 になるので、
P(X = k | \alpha, \beta)
= \frac{\beta^\alpha}{k! \Gamma(\alpha)} \frac{\Gamma(k + \alpha)}{(1+\beta)^{k+\alpha}} \cdot 1
= \frac{\Gamma(k + \alpha)}{k! \Gamma(\alpha)} \left( \frac{\beta}{1+\beta} \right)^\alpha \left( \frac{1}{1+\beta} \right)^k
ガンマ関数は引数が整数の場合、\Gamma(x + 1) = x! が成り立つので、
\frac{\Gamma(k + \alpha)}{k! \Gamma(\alpha)} = \frac{\Gamma(k + \alpha)}{\Gamma(k + 1) \Gamma(\alpha)}
となります。ここで、n 個から m 個を選ぶときの組み合わせの数 {}_n C_m をガンマ関数で拡張してみます。このようにすることで、n, k が実数でも組み合わせの数っぽいものを考えることができる。
{}_n C_m = \frac{n!}{k! (n-m)!} = \frac{\Gamma(n+1)}{\Gamma(m+1) \Gamma(n-m+1)}
上の式に n = k + \alpha - 1, m = k を代入してみると、
{}_{k + \alpha - 1} C_k = \frac{n!}{k! (n-m)!} = \frac{\Gamma(k + \alpha)}{\Gamma(k + 1) \Gamma(\alpha)}
となるため、最終的に購買回数の分布は
P(X = k | \alpha, \beta)
= {}_{k + \alpha - 1} C_k \left( \frac{\beta}{1+\beta} \right)^\alpha \left( \frac{1}{1+\beta} \right)^k
となります。
負の二項分布との関係
負の二項分布にはいくつかの定義がありますが、ここでは説明の都合で 1 つだけ紹介します。
確率 p で成功するベルヌーイ試行(要はコイントス)を繰り返し行うとき、m 回成功するまでに行う失敗回数が従う分布を負の二項分布と言います。n を失敗回数、m を成功回数とすると、n + m - 1 買い目の試行回数までに m - 1 回成功して、その次に成功する確率なので、
P(X = n | m, p) = {}_{n + m - 1} C_{n} p^{m - 1} (1 - p)^n \cdot p = {}_{n + m - 1} C_{n} p^m (1 - p)^n
となります。
この式に n = k, m = \alpha, p = \beta / (1 + \beta) を当てはめると、P(X = k | \alpha, \beta) に一致することから、購買回数は負の二項分布に従うことがわかります。ただし、通常の負の二項分布ではなく、組み合わせの数をガンマ関数で拡張していることに注意が必要です。
平均と分散
購入回数の分布の平均・分散を求めてみます。
負の二項分布の平均は p m / (1 - p) なので、購入回数の平均は
\mathbb{E}[X | \alpha, \beta] = \alpha \beta
となる、分散は p m / (1 - p)^2 なので、
\mathbb{V}[X | \alpha, \beta] = \alpha \beta (1 + \beta)
となります。
NBD モデル
\alpha = K, \beta = K / M とすると、数学マーケティングに使われる NBD (Negative Binominal Distribution) モデルの式を導くことができます。
P(X = r | K, M) = \frac{\left(1 + \frac{M}{K}\right)^{-K} \Gamma(K + r)}{\Gamma(r + 1)\Gamma(K)} \left( \frac{M}{M + K} \right)^r
ここで、M は購入回数の平均 \mathbb{E}[X | \alpha, \beta] であり、K は確率分布の形状パラメータです。
参考資料
Discussion