📝

「確率思考の戦略論」がもやもやする方へ -NBDモデル編-

2023/05/10に公開
3

本記事の目的

この記事を読まれているということはきっと皆さんはこの本を読んだということでしょう。

https://amzn.asia/d/8GTxq2o

データサイエンティストの方やデータアナリスト、機械学習エンジニアの方であれば、やはり「どんな仮説の下データ分析が行われたのか」という点は気になる点ですよね。その確率的構造が「市場構造の本質だ」と豪語されてしまっては、「ほうほう、それはどういったものか」とどうしても気になってしまいます。私自身、どうしても気になってしまったので読んでいたのですが、どうにも腑に落ちないというか、そんなもやもやが既に第一章において発生しました。このもやもやを解決するために、自分の中でかなり時間を使ったため、今後誰かが読む際の参考になればよいなと思って、ここに自分の思考の跡を辿ろうと思います。

第 1 章 4 節「市場構造の本質は全て同じ」

著者の主張の要約

さて、当初の第一の主張は「市場の構造の本質はすべて同じ」といった主張です。ここでは「同じ目的で利用され、同じような方法で便益を与える製品・サービスの集まり」のことをカテゴリーと表現しています。こう考えると、現実経済には色々なカテゴリが存在します。パンケーキや歯磨き粉、図書館の本といった具合です。著者はそれぞれのカテゴリについて、各カテゴリーについて消費者のプリファレンスの違いは見られるものの、プリファレンスに基づいてそれぞれのカテゴリーの購買回数自体は以下の 4 つの法則に基づいていると主張しています。

  1. 消費者一人一人が独自に購買決定をしている。
  2. 購入行動はランダムに発生している。
  3. それぞれのカテゴリーに対してほぼ一定のプリファレンスを持っている。
  4. プリファレンスの高いものはより高頻度で購買される(ガンマ分布)。

すると突如としてカテゴリの市場全体の購買回数の和が 負の二項分布(NBD モデル) に従う確率変数であることが主張されます。これは著書では以下のように表記されています。

\begin{align} \mathrm{NBDモデル(r回出る確率)} : P_r = \frac{\biggl(1 + \frac{M}{K}\biggr)^{-K} \Gamma(K+r)}{\Gamma(r+1)\Gamma(K)}\biggl(\frac{M}{M+K}\biggr)^r \end{align}

そしてその正当性は「パンケーキの購入回数」「歯磨き粉の購入回数」「本の貸し出し」の確率分布が負の二項分布に従って概ね正しく予測できているでしょ?だから正しいよね?と主張されています。

もやもやを解決する

さて、少なくともこの段階では私は「何を言っているのかさっぱりわからない...。」というのが率直な感想でした。ですが色々とネットサーフィンをしたりしながら考えてみると、「おそらく著者はこういうことが言いたかったんだな」という朧気ながらが見えてきましたのでその理解を記述したいと思います。まず、「プリファレンスに基づいてそれぞれのカテゴリの購買回数自体は以下の 4 つの法則に基づいている」と記述されていますが、これはあくまで 著者の「仮説(仮定)」 です。別に真実を表したものではありません。

さらに、これらの法則の説明があまりにも抽象的で、数学的な妥当性を把握することが困難であるため、これをなるべく数学的に記述しながら解釈してみようと思います。

仮定 1. 消費者一人一人が独自に購買決定をしている。

これは消費者 i, j のあるカテゴリの商品の購買回数を確率変数 X_i, X_j とした場合、X_i, X_j が互いに独立であることを意味しています。すなわち

\begin{align} P(X_i=x_i|X_j=x_j) = P(X_i=x_i) \end{align}

が成立するということです。ただし P(\cdot) は無条件確率分布を刺し、 P(\cdot|\cdot) は条件付き確率分布を示します。

仮定 2. 購入行動はランダムに発生している。

特に、本書では消費者 i = 1, 2,..., N のあるカテゴリの商品に対する購買回数はパラメータを \lambda_i とするポアソン分布に従って発生すると仮定しています。つまり各消費者の購入回数 X_i の確率分布が以下の関数に従うことを仮定しています。

\begin{align} P(X_i=x_i) = e^{-\lambda_i} \frac{\lambda_{i}^{x_i}}{x_i!} \end{align}

ポアソン分布は「単位時間当たりに平均 \lambda_i 回発生する事象が、単位時間あたりに x_i 回発生する事象」を表現するために利用される代表的な確率分布です。以下のページにとても分かりやすくまとまっていますので、ポアソン分布について詳細を知りたい方はこちらをご覧ください。

https://manabitimes.jp/math/924

仮定 4. プリファレンス の高いものはより高頻度で購買される(ガンマ分布)。

おいおい、仮定 3 の説明はどこに行った?と思われるかもしれませんが、こちらから説明した方が順を追って説明できるためこちらから敢えて記述します。そもそも「プリファレンス」って何?という感覚が私にはあります。横文字を並べて記述が難しいことを煙に巻こうとしている感じがして、私個人としては嫌悪感すら感じます。 ここではこの プリファレンスたるものが数学的にはいったい何者なのか、解釈を試みようと思います。

仮定 2 より、消費者 i = 1,2,...,N の購買行動は \lambda_i をパラメータとするポアソン分布で記述されると仮定されていました。しかし、 \lambda_i は当然消費者が異なれば異なる可能性があります。ところが無秩序にこの \lambda_1, \lambda_2, ..., \lambda_N が定まると考えては、当然消費者 i=1, 2, ..., N の購買回数 (X_i) の和として表現されるカテゴリーの購買回数、すなわち

\begin{align} X \equiv \sum_{i=1}^{N} X_i \end{align}

を確率的に推測することは出来なくなってしまいますよね。そのため推測を行うためには、\lambda_1, \lambda_2, ..., \lambda_N が何らかの確率分布に従って決まっていると考えなくてはならないのです。これは概ね 世の中にはある商品を高頻度で買う人もいれば買わない人もいるが、それはランダムに決まっている ということを意味します。

ということでこの \lambda_1, \lambda_2, ..., \lambda_N がそれぞれ互いに独立にガンマ分布に従って決定されると仮定しましょう。つまり、任意の \lambda_i について、その確率密度関数が以下の形で表現されることを意味します。

\begin{align} f(\lambda_i) = \frac{\beta^{\alpha}\lambda_i^{\alpha -1}e^{-\beta \lambda_i}}{\Gamma(\alpha)}\ (\lambda_i > 0) \end{align}

ただし、ここで \alpha>0, \beta>0 はそれぞれガンマ分布の形状を定めるために必要なパラメータです。実際このガンマ分布の期待値を計算すると

\begin{align} \mathbb{E}[\lambda_i] = \frac{\alpha}{\beta} \end{align}

と表現されます。すなわち \alpha / \beta が大きければ大きいほど消費者の平均的な購入回数 \lambda_i の分布は全体として高まるため、そのカテゴリーの購入回数も必然的に増えるというわけです。つまり、この \alpha / \beta こそが プリファレンス と著者が主張するものの正体であり、後に示しますが、(1) 式における M の正体は \alpha / \beta に一致します。ここまで理解すれば、仮定 4 で言っている「プリファレンスの高いものはより高頻度で購買される(ガンマ分布)」と言っていることの意味が分かると思います。ガンマ分布の詳細に関してはこちらにとても分かりやすくまとまっているので、併せてご確認ください(\alpha = \mu, \beta=1/n)。と考えると分かりよいかと思われます。

https://manabitimes.jp/math/1386

仮定 3. それぞれのカテゴリーに対してほぼ一定の プリファレンスを持っている。

この過程は先ほど示したガンマ分布のパラメータである \alpha >0、及び \beta>0 が時間を通じてあまり変化しないことを意味しています。つまり、実際はそれらのパラメータは時間を通じた変数である可能性がありうるため、 \alpha_t, \beta_t と表現すべきなのかもしれないですが、そう表現する必要はないと主張しています。パンケーキも歯磨き粉も図書館の貸出量も、時間を通じてそのトレンドが変化することはないと仮定していることを意味しています(本当か?)。

カテゴリの購買回数の総和が負の二項分布に従う

さて、ここまで何度も申し上げていますが、仮定 1~仮定 4 は著者が「成立すると仮定」しているに過ぎず、本当にこれらの仮定が各消費者の購買回数、ひいては市場全体の購買回数である、

\begin{align*} X \equiv \sum_{i=1}^{N} X_i \end{align*}

を表現するかどうかは分かりません。しかしながら、もしこれらの仮定が全て成立していたとすると、同時に以下が成立することを示すことができます。

さて、まずはこの定理がどのように証明できるか、非常にざっくりではありますが示します。


ものすごくざっくりした証明

まず、仮定 1, 2 より各 X_i は互いに独立に、かつパラメータを \lambda_i とする確率分布に従って表現されると仮定されました。このことを用いると、あるカテゴリの市場全体での購入回数の確率分布 P(X=x|\lambda_1,\lambda_2,...,\lambda_n) は以下のように表現できます。

P(X = x|\lambda_1,\lambda_2,...,\lambda_N) \equiv \sum_{i=1}^{N}P(X_i=x_i) = \sum_{i=1}^{N} e^{-\lambda_i} \frac{\lambda_{i}^{x_i}}{x_i!}

ところで、この \lambda_1, \lambda_2,..., \lambda_N についてですが、仮定 3, 4 により、パラメータを \alpha>0, \beta>0 とするガンマ分布に従っていると仮定されていました。つまり各個人の購買回数 X_i = x_i が成立する確率について、確率の乗法定理より

\begin{align*} P(X_i=x_i|\alpha, \beta) &= P(X_i=x_i|\lambda_i) \times P(\lambda_i|\alpha, \beta) \\ & = e^{-\lambda_i}\frac{\lambda_{i}^{x_i}}{x_i!} \times \frac{\beta^{\alpha}\lambda_i^{\alpha -1}e^{-\beta \lambda_i}}{\Gamma(\alpha)} \end{align*}

と表現されることが分かります。今、定理の前提より N が十分に大きい状況を考えていました。この場合、各人の \lambda_i はそれぞれ異なるものの、全体として見れば \lambda_1, \lambda_2, ..., \lambda_N の人数の分布も概ねガンマ分布(厳密にはガンマ分布に比例する分布)に収束すると考えられます。これは一般に 大数の法則 と呼ばれるものですね。この近似を許容すれば、市場全体の購買回数は以下のように近似的に表現できます。

\begin{align*} P(X_i=x_i|\alpha, \beta) &\approx \int_{0}^{\infty} \underbrace{e^{-\lambda_i}\frac{\lambda_{i}^{x_i}}{x_i!}}_{\mathrm{パラメータが} \lambda_i \mathrm{の消費者の購入回数}} \times \underbrace{N \times \frac{\beta^{\alpha}\lambda_i^{\alpha -1}e^{-\beta \lambda_i}}{\Gamma(\alpha)}}_{\mathrm{パラメータが} \lambda_i \mathrm{の消費者の人数}} d \lambda_i \\ &= N \times \int_{0}^{\infty}e^{-\lambda_i}\frac{\lambda_{i}^{x_i}}{x_i!} \times \frac{\beta^{\alpha}\lambda_i^{\alpha -1}e^{-\beta \lambda_i}}{\Gamma(\alpha)} d \lambda_i \end{align*}

さて、この積分部分の計算についてですが、色々頑張ることにより最終的に以下のように計算できます。

{}_{x+\alpha-1}C_{x} \biggl(\frac{\beta}{1+\beta}\biggr)^{\alpha}\biggl( \frac{1}{1+\beta} \biggr)^{x}

詳しい導出は以下記事をご覧ください。

https://qiita.com/nijigen_plot/items/9570487b73ad01fff36b#以下の2つを掛け合わせると負の二項分布になるとは

したがって、以下の式が近似的に成立します。

\begin{align*} P(X_i=x_i|\alpha, \beta) \approx N \times {}_{x+\alpha-1}C_{x} \biggl(\frac{\beta}{1+\beta}\biggr)^{\alpha}\biggl( \frac{1}{1+\beta} \biggr)^{x} \end{align*}

以上より、法則 1~4、及び N が十分に大きいという条件の下で、(7)式で求まる形のようになります。\square


この式における N を除いた残りの部分である

\begin{align} P(X=x) = {}_{x+\alpha-1}C_{x} \biggl(\frac{\beta}{1+\beta}\biggr)^{\alpha}\biggl( \frac{1}{1+\beta} \biggr)^{x} \end{align}

負の二項分布 (Negative Binomial Distribution) とよばれる確率分布になります。

以上のことから著者は「あるカテゴリに属する商品の購買回数が負の二項分布に従う」と主張しています。

(1) 式 (8) 式との関連性

さて、ここで、著書の中で示されている数式 (1) と我々が導出した式 (8) を見比べてみましょう。それぞれ以下のようです。

\begin{align*} \mathrm{NBDモデル(r回出る確率)} : P_r &= \frac{\biggl(1 + \frac{M}{K}\biggr)^{-K} \Gamma(K+r)}{\Gamma(r+1)\Gamma(K)}\biggl(\frac{M}{M+K}\biggr)^r \\ P(X=x) &= {}_{x+\alpha-1}C_{x} \biggl(\frac{\beta}{1+\beta}\biggr)^{\alpha}\biggl( \frac{1}{1+\beta} \biggr)^{x} \end{align*}

全く同じ式に見えませんね(笑)。本記事の最後に、この2つの式が同一であることを簡単に示そうと思います。

まず、\Gamma(\cdot)カッコつけた書き方をしていますが今回のケースではこれは高校数学で習ったことのある階乗と同じ意味です。すなわち以下が成立します。

\begin{align*} \Gamma(K+r) &= (K+r-1)! = (r+K-1)! \\ \Gamma(K) &= (K-1)! \\ \Gamma(r+1) &= r! \end{align*}

したがって、(1) 式はまず以下のように変形できます。

\begin{align*} P_r &= \frac{\biggl(1 + \frac{M}{K}\biggr)^{-K} (K+r-1)!}{r!(K-1)!}\biggl(\frac{M}{M+K}\biggr)^r \\ &= \frac{(r+K-1)!}{r!(K-1)!}\biggl(1 + \frac{M}{K}\biggr)^{-K} \biggl(\frac{M}{M+K}\biggr)^r \\ &= \frac{(r+K-1)!}{r!(K-1)!}\biggl(\frac{K+M}{K}\biggr)^{-K} \biggl(\frac{M}{M+K}\biggr)^r \\ &= \frac{(r+K-1)!}{r!(K-1)!}\biggl(\frac{K}{K+M}\biggr)^{K} \biggl(\frac{M}{M+K}\biggr)^r \\ \end{align*}

一番最初の項について、見覚えがある方もいらっしゃるのではないでしょうか。これは組み合わせの定義そのもので、 {}_{r+K-1}C_{r} に一致します。ちょっとよくわからないという方はこちらをご参照ください。

https://manabitimes.jp/math/1352

この書き換えにより、一気に(8)式に近づきます。

\begin{align*} P_r = {}_{r+K-1}C_{r}\biggl(\frac{K}{K+M}\biggr)^{K} \biggl(\frac{M}{M+K}\biggr)^r \end{align*}

さて、P_r とは r 回購入される確率を表す概念でしたから、r=x と置き換えれば P(X=x) と同じ概念になります。すなわち以下のように書き換えられることになります。

P(X=x) = {}_{x+K-1}C_{x}\biggl(\frac{K}{K+M}\biggr)^{K} \biggl(\frac{M}{M+K}\biggr)^x

この式と (8) 式を見比べることにより、直ちに \alpha = K であることが理解できます。すると、2つ目の積の要素の比較により、K/(M+K) = \beta/(1+\beta) でなくてはなりませんから、この式を解くことにより

\beta = \frac{K}{M}

を導くことができます。つまり我々の式における \alpha, \beta をそれぞれ \alpha \equiv K, \beta \equiv K/M と 定義することにより、著書の NBD モデルと一致することが分かります。ついでに、著者がプリファレンスとして評していた概念とは

E(\lambda_i) = \frac{\alpha}{\beta} = M

であることまで導き出すことができます。

まとめ

最後まで当記事をお読みくださりありがとうございました。当記事でお伝えしたかった事は要約すると以下のようになります。

さらに \alpha \equiv K, \beta \equiv K/M とすることで、著書に示されている NBD モデルが確かに導出されることを示しました。さらに、著者がプリファレンスとして評していた概念とは

E(\lambda_i) = \frac{\alpha}{\beta} = M

であることまで導き出すことができました。N はどこに行ったんだ?笑

正直に申し上げると、個人的にはこの本についてあまりよい評価をしていません。何故ならば個人的には以下のように考えているためです。

  1. 統計モデルを利用する以上、いかなる仮定の下でいかなる結論が成立するか理解して置く必要があると考えているため。

    • 統計モデルは機械学習モデルと違って、「予測できれば良い」というような類のものではないです。どのような前提を置くと、どういった風に現象を説明できるのかということについて、一層意識して分析する必要性があります。
    • ですが著書ではそのもっとも大事な部分を煙に巻くように記述されているように個人的には見えてしまい、それが残念でした。(一応巻末に付録がついていることは補足しておきます)
  2. 結局どういった方法でパラメータが推定され、どういった方法で精度が検証されたのか記述されていないため。

    • これは当記事の中では初めて触れましたが、どのようにパラメータ K, M が推定されたのか記述されていません。おそらく N にはサンプル数を使っているのでしょうが...
    • モーメント法による推定を行っているのか?あるいは何らかの事前分布をパラメータに課してベイズ推定を行ったのか?学習データと検証データを分けて推定を行ったのか?何もわからないため、この推定が「現実を上手く説明できているのかどうか判断できない」というのが正直なところです。

以上のことから、少し説得力を欠いた本だなぁというように感じました。あるいは「金ピカの字」で「確率思考」であったり「USJ でも実証」といったキーワードを利用したり、「プリファレンス」といった横文字を利用すれば容易に受け手を説得することができることを示唆しているのかなと。つまり、それらの強烈なキーワードに比べれば厳密な統計的推論など情報の受け手にとってはどうでもよいことを表している、壮大な示唆を持ったマーケティングの本なのかなと感じてしまいました。

以上です。批判的な内容となり、不快な想いをする方がいらっしゃいましたら申し訳ございません。最後までお読みいただき有難うございました。また反響があれば続きを執筆するかもしれません。

Discussion

ruylopezruylopez

はじめまして

まさに『確率思考の戦略論』を読んでもやもやして検索した結果行きついた次第です。
 巻末の記述の数学のパートも、個人的にあまり見慣れない確率関数の数式の書き方でわかりにくかったり、変数の定義がわからなかったり(特にMとK)、そもそもプレファレンスの定義がわからなかったりなど、読んでてもやもやとするところがあったので、記事に助けられました。ありがとうございます。
 いくつか他にも読んでいて言葉が未定義だな(第3章の「ブランド・エクイティー」とは?)、モデルは妥当なのかな(第3章の売上予測モデルは妥当なのか、「購入経験なし」が購入する確率はないのか、そもそもプレファレンスと認知率と配荷率で決まっているのに、プレファレンスが登場しないのはなにか)など、こまごま気になるところがあって、「まぁ学術書じゃないからよいか」と諦めました。
 私自身普段は統計を使わないので確率モデルを用いてマーケティングに関わる目的変数を予測するという考え、および、その具体例が提示されている点が一番この本で参考になったことです。マーケティング分野に関わるもので、確率分布による予測についてより丁寧にまとめている本などがあればなと思うのですが、何か知っておられますか?。マーケティングと統計となると、基本的な記述統計から検定、および線形モデルなどがメインで、『確率思考の戦略論』のように確率分布についてはあまり説明がない本が多いと感じています(あっても正規分布やベルヌーイ分布など非常に基本的な分布のみ)。
 長文申し訳ございませんでした。非常に有益な記事をありがとうございました。

ruylopezruylopez

追記申し訳ございません。
私の理解と読み込みが浅いのでわからないところがあり、連投になってしまっています。
記事を読んだうえで余計にわからなくなったのが以下の2点です。
・第2章p63の部分で、「プレファレンス=M=α/Bの値を大きくする」とは結局、マーケティング的に何を意味しているのかということです。ここまで数式をこねくり回して、結論が「ファンを垂直拡大、または水平拡大しましょう」というのは、「個人が購入する確率を上げましょう」程度のものに感じてしまいます(誤読があれば申し訳ございません)。
・第1章p28-29の部分でブランド別回数別構成比が出ていますが、このブランドごとのKとMはどのように決定されるか、あるいはどのように推定されるのでしょうか。ブランドの構造がKとMで決まってくるのであれば、マーケターとしてはなんとかKやMを変化させたいと思うはずです。このとき、KやMはどのように決定されるのかがわからなければ、それを変化させようがない点が気になります。

JoanOfArcJoanOfArc

こんにちは。まずこんなに面白くないであろう記事を最後まで読んでいただき本当に有難うございます。見つけていただき、かつ何かしらの知見を得られたのでしたら幸いです。大変申し訳ございませんが、当方既に本を売却してしまっているため、こたえられる範囲でご回答できればと思っています。

これはあくまで個人的な感想の範疇を過ぎませんが、正直この本は「何か言っているようで何も言っていない本」だと思っています。ですから

結論が「ファンを垂直拡大、または水平拡大しましょう」というのは、「個人が購入する確率を上げましょう」程度のものに感じてしまいます

というご指摘は、ごもっともだと考えています。この著書で数式を使う意味は単に読者に対し「すごいことをやっているのだ」という理由で圧倒すること以外に特段の意味はないと感じています。

このブランドごとのKとMはどのように決定されるか、あるいはどのように推定されるのでしょうか

記事内で指摘させていただきましたが、この推定方法については厳密に記載されているように私には確認できませんでした。統計的な推論にのっとるのであれば、モーメント法であったり、何らかのベイズ推定的な手法(MCMC) を用いて推定するのかな、というのが私の知識の範囲内では想像されます。しかしどうもそこまで厳密に考えていないんじゃないかなぁというのが私のこの本を読んだ所感です。

マーケティング分野に関わるもので、確率分布による予測についてより丁寧にまとめている本などがあればなと思うのですが、何か知っておられますか?

私はあまりマーケティングに詳しいわけではないので、ご希望にピッタリ合うような本をご提案できず申し訳ないのですが...。私が学生の頃、大学院でマーケティング周りの統計モデルについて学習されていた知人が読んでいたのは以下の本です。

https://amzn.asia/d/h229ocZ

後はキーワードとして、 Marketing Mixture Model というのが割とマーケティングと統計の関わる分野として有名なモデルかと思われますので、興味があればお調べいただくと何か新たな発見があるかもしれません。