ChatGPTと学ぶ確率・統計・その他数学

 Poisson過程のやさしい解説と公式まとめ（LaTeX付き）
 はじめにPoisson過程は、確率論や統計学の中で、一定の割合でランダムに発生する事象を扱うときに登場する代表的な確率モデルです。
たとえば、あるコンビニに1時間あたり平均12人の客が来るとき、その来店のタイミングや人数を数理的に記述したい場合にPoisson過程が用いられます。

 Poisson過程の設定と記号以下のような記号と変数を用います：

\lambda：1単位時間あたりに到着する平均人数（到着率）

N(t)：時刻 t までに到着した人数（カウント変数）

W_i：i人目とその前の人の間の待ち時間

T_k：k人目が到着する時刻

 1. 各変数が従う分布
 N(t)（Poisson分布）：
N(t) \sim \mathrm{Poisson}(\lambda t)
これは、「時刻 t までに到着した人数が何人か」を表します。

たとえば \lambda = 12 のとき、1時間あたり平均12人来ると仮定したときの人数の分布です。

 W_i（指数分布）：
W_i \sim \mathrm{Exp}(\lambda)
これは、1人の来客と次の来客の待ち時間を表します。すべての W_i は独立で同じ指数分布に従う（i.i.d.）と仮定します。

 T_k（ガンマ分布）：
T_k = W_1 + W_2 + \cdots + W_k
よって、

T_k \sim \mathrm{Gamma}(k, \lambda)
k人目の到着までにかかる累積時間は、k個の指数分布の和、すなわちガンマ分布に従います。

 2. 基本的な関係式
 T_k と N(t) の関係：
T_k \leq t \quad \Longleftrightarrow \quad N(t) \geq k
意味：

左辺：k人目の到着が時刻 t 以前に発生している

右辺：時刻 t までに k人以上が到着している
この2つは同じ事象を違う視点で記述したものです。

 T_k と W_i の関係：
T_k = \sum_{i=1}^{k} W_i
T_k は k人目の到着時刻であり、それまでの全待ち時間の合計になります。

 Poisson分布とGamma分布のリンク：
P(N(t) = k) = P(T_k \leq t) - P(T_{k+1} \leq t)
これは「ちょうど k人が t までに来た」ことを、2つのガンマ分布の差で表現したものです。

 3. 解釈まとめ
 N(t) の視点：到着した人数をカウントする
離散値（0,1,2,...）
分布：Poisson(\lambda t)

 W_i の視点：次の来客までの待ち時間
連続値
分布：指数分布Exp(\lambda)

 T_k の視点：特定の来客が到着する時刻
連続値
分布：ガンマ分布Gamma(k, \lambda)

 4. 具体例（λ = 12 のとき）
 1時間あたり12人来る場合（\lambda = 12）5分間で誰も来ない確率は？

指数分布を使って P(W_1 > 5\ \text{分}) = e^{-\lambda t} = e^{-1} \approx 0.3679
30分でちょうど5人来る確率は？

N(0.5) \sim \mathrm{Poisson}(6) より

P(N(0.5) = 5) = \frac{6^5}{5!} e^{-6}

 おわりにPoisson過程は、単なる数学の対象ではなく、通信・待ち行列・交通・故障率など、現実世界に深く関係しています。
このまとめを通して、3つの視点
人数（N(t)）
時間（T_k）
待ち時間（W_i）
を自由に行き来できるようになれば、Poisson過程の理解はかなり深まったと言えます。

axjack

 確率変数と指示関数を使った分割：期待値の便利な分解テクニック
 はじめに確率論・統計学において、期待値の式変形はさまざまな場面で非常に重要です。

特に、**指示関数（インジケーター関数）**を用いることで、複雑な事象や条件をシンプルに分解・操作することができます。
本記事では、以下の式が正当な期待値の分解であることと、

このような表現を用いるメリットや直感的な意味を丁寧に解説します：

E[X] = E[X \cdot 1_{\{|X| \leq \varepsilon\}}] + E[X \cdot 1_{\{|X| > \varepsilon\}}]

 この式はなぜ正しいのか？期待値とは、確率変数の加重平均のようなもので、

確率変数 X が取りうる値と、その確率の積の和（または積分）です。
このとき、指示関数 1_A は、ある条件を満たすときに1、そうでないときに0になる関数です：

1_A(\omega) = 
\begin{cases}
1 & \text{if } \omega \in A \\
0 & \text{otherwise}
\end{cases}
ここで、事象 \{|X| \leq \varepsilon\} と \{|X| > \varepsilon\} は互いに排反かつ全体を覆う（全体事象 \Omega に等しい）ので、

1_{\{|X| \leq \varepsilon\}} + 1_{\{|X| > \varepsilon\}} = 1
よって、

X = X \cdot 1 = X \cdot (1_{\{|X| \leq \varepsilon\}} + 1_{\{|X| > \varepsilon\}})
この等式を期待値に代入すると、

E[X] = E\left[X \cdot (1_{\{|X| \leq \varepsilon\}} + 1_{\{|X| > \varepsilon\}})\right]
期待値の**線形性（足し算を期待値の外に出せる性質）**より：

E[X] = E[X \cdot 1_{\{|X| \leq \varepsilon\}}] + E[X \cdot 1_{\{|X| > \varepsilon\}}]
となります。これが冒頭の式の正当性です。

 この変形のメリット・使いどころ
 1. 大きな値の寄与を個別に評価できる
例えば、X の一部の値（例えば極端に大きな値）による期待値への影響を分析したいとき、

その「大きな値が出る確率とその大きさ」をこの式を使って切り分けて評価できます。

 2. 不等式評価（チェビシェフの不等式など）に活躍
チェビシェフの不等式のように、「あるしきい値 \varepsilon を超える確率」を評価したい場面では、

このように指示関数を使って事象を分割するのがとても便利です。

 3. 分布の性質を調べる道具になる
たとえば「X が主にどの範囲で期待値に寄与しているのか？」といった

確率分布の重心や寄与の偏りを調べる分析にも使えます。

 まとめ指示関数は「条件で切り分ける」ための便利なツールです。

E[X] を条件で分解することで、確率変数の振る舞いを細かく見ることができます。
特に、極端な値の影響や確率分布の偏りの分析、期待値の上界評価などにおいて、このテクニックは非常に有効です。
ぜひ、チェビシェフの不等式や確率的評価を行う際の武器として、この分解式を使いこなしてみてください。

axjack

 【保存版】"sup"（上限）とは？やさしく・詳しく・例題付きで徹底解説！
 1. 超概要sup（スープ）とは、「上限（上の方の限界）」を表す数学の概念です。

ある集合に含まれる数値の最大っぽい値を扱うときに使われます。

ただし、最大値とは違うことがポイントです！

 2. 簡単な説明例えば、ある集合 A に入っている数字が全部 3 と 4 の間だとします：

A = \{ x \in \mathbb{R} \mid 3 < x < 4 \}
この集合には「4」は含まれていません（開区間といいます）。

でも、A にある数字はどれも 4 より小さいし、4 に限りなく近づくことはできる。
だから、数学的にはこう言います：
「集合 A の最大値は存在しないが、**上限（sup）**は存在して、それは 4 である」

 3. もうちょっと詳しい説明（定義）数学的に、集合 A の **上限（supremum）**とは：

A の**すべての要素以上の値（上界）**であり、
上界の中でも最も小さいもの
これを記号で書くとこうなります：

\sup A = \text{最小の上界}
最大値が存在するときは、それが sup になります。

でも、最大値が存在しなくても sup は存在するというのがポイント！

 4. sup と max の違いを明確にする例題
 【例題1】最大値あり vs 上限だけあり集合 B = \{1, 2, 3\} の場合：
最大値 \max B = 3
上限 \sup B = 3
ここでは 最大値と上限は一致しています。
集合 C = \{ x \in \mathbb{R} \mid x < 1 \} の場合：
最大値は 存在しません（1は含まれてない）
しかし上限は 1 です：

\sup C = 1

 【例題2】A = (3, 4) の上限を懇切丁寧に考える集合 A = \{ x \in \mathbb{R} \mid 3 < x < 4 \} とは、
3 より大きくて、4 より小さいすべての実数を含む集合です。
たとえば 3.1 や 3.9999 は含まれます。
でも「4 ぴったり」は含まれていません！

 さて、sup はどうなるでしょうか？ステップ① A の上界を考える

A にあるすべての要素 x に対して、x \leq 4 が成り立ちます。

だから、4 は 上界です。
ステップ② より小さい上界があるか考える

たとえば 3.9 や 3.99 は上界ではありません。

なぜなら、3.99 \in A なので「上回る要素がある」から。
ステップ③ だから、4 より小さい上界は存在しない！

つまり、4 が **最小の上界（sup）**です。
結論：

\sup A = 4 \quad (\text{ただし } \max A \text{ は存在しない})

 5. sup を使う理由・意義最大値が存在しない場合にも“限界”を扱える
解析学・測度論・確率論などで非常に重要！
微積分や収束の議論でも大活躍！

 6. おわりに**sup（上限）**は、数学における「一番上の限界」をきっちり扱うためのツールです。

最大値がなくても扱えるのが sup の強み。
最大値：その値「自身」が集合に含まれている

上限（sup）：その値に「限りなく近づける」けど含まれていなくてもOK！
こう覚えておくと、sup の世界がグッと近くなります。

axjack

【問題】

確率変数 (X) の確率密度関数(pdf)を (f_X(x)) とします。このとき、確率変数 (Y) を (Y = -X^2 + 3) で定義します。確率変数 (Y) の下側累積分布関数(cdf) (F_Y(x) = P(Y \le x)) を求めてください。

【解答】

確率変数 (Y) の下側累積分布関数 (F_Y(x)) は、定義により (F_Y(x) = P(Y \le x)) です。
まず、事象 (Y \le x) を確率変数 (X) に関する条件に書き換えます。

Y \le x \iff -X^2 + 3 \le x \iff -X^2 \le x - 3 \iff X^2 \ge 3 - x

ここで、実数である確率変数 (X) に対して (X^2 \ge 0) が常に成り立つことを考慮すると、(3 - x) の値によって場合分けが必要です。

ケース 1: (3 - x < 0) すなわち (x > 3) の場合

このとき、不等式 (X^2 \ge 3 - x) は、常に非負である (X^2) が負の値 (3 - x) よりも大きいことを意味するため、常に成り立ちます。
したがって、事象 (Y \le x) は全事象 (\Omega) と等しくなります。

Y \le x \iff X^2 \ge 3 - x \iff \Omega \quad (\text{for } x > 3)

この場合の (F_Y(x)) は以下のようになります。

F_Y(x) = P(Y \le x) = P(\Omega) = 1 \quad (\text{for } x > 3)

ケース 2: (3 - x \ge 0) すなわち (x \le 3) の場合

このとき、不等式 (X^2 \ge 3 - x) は、(X^2 \ge (\sqrt{3 - x})^2) と同値です。これを解くと、絶対値の性質から以下のようになります。

|X| \ge \sqrt{3 - x} \iff X \le -\sqrt{3 - x} \text{ または } X \ge \sqrt{3 - x}

したがって、事象 (Y \le x) は、(X \in (-\infty, -\sqrt{3 - x}] \cup [\sqrt{3 - x}, \infty)) という事象と等しくなります。

Y \le x \iff X \in (-\infty, -\sqrt{3 - x}] \cup [\sqrt{3 - x}, \infty) \quad (\text{for } x \le 3)

確率変数 (X) の累積分布関数を (F_X(u) = P(X \le u)) とすると、この場合の (F_Y(x)) は以下のようになります。

F_Y(x) = P(Y \le x) = P(X \in (-\infty, -\sqrt{3 - x}] \cup [\sqrt{3 - x}, \infty))

事象 (X \le -\sqrt{3 - x}) と事象 (X \ge \sqrt{3 - x}) は互いに排反であるため、確率の加法定理が適用できます。また、連続確率変数 (X) の場合、

P(X \ge a) = 1 - P(X < a) = 1 - P(X \le a) = 1 - F_X(a)

が成り立ちます。

F_Y(x) = P(X \le -\sqrt{3 - x}) + P(X \ge \sqrt{3 - x})

F_Y(x) = F_X(-\sqrt{3 - x}) + 1 - F_X(\sqrt{3 - x}) \quad (\text{for } x \le 3)

以上をまとめると、確率変数 (Y) の下側累積分布関数 (F_Y(x)) は以下のようになります。

F_Y(x) = \begin{cases} 1 & \text{if } x > 3 \\ F_X(-\sqrt{3 - x}) + 1 - F_X(\sqrt{3 - x}) & \text{if } x \le 3 \end{cases}

axjack

 単一カテゴリモデル vs 多カテゴリモデル：対応関係と具体例以下は、よく出てくる確率モデルの「単一カテゴリ」と「多カテゴリ」の対応を整理したものです。

確率分布曼荼羅を歩く人の道しるべとして、ベータ分布とディリクレ分布の関係もこの対応で自然に理解できます。

 🌱 モデル対応表（簡単な説明付き）

構成要素
単一カテゴリモデル
多カテゴリモデル


データの分布

ベルヌーイ分布：成功 or 失敗の2値を1回観測

カテゴリカル分布：Kカテゴリから1つ選ばれる

繰り返し（n回）

二項分布：ベルヌーイをn回繰り返して成功回数をカウント

多項分布：カテゴリカルをn回繰り返して各カテゴリの回数をカウント

パラメータの事前分布

ベータ分布：成功確率 ( p \in [0,1] ) に対する事前分布

ディリクレ分布：確率ベクトル ( (p_1, ..., p_K) ) に対する事前分布


 🌟 各モデルの簡単な具体例
 ✅ ベルヌーイ分布の例（単一カテゴリ）コインを1回投げて表が出るかどうか（表 = 1, 裏 = 0）
表が出る確率 ( p = 0.7 )
確率質量関数：

[

P(X = 1) = 0.7,\quad P(X = 0) = 0.3

]

 ✅ カテゴリカル分布の例（多カテゴリ）サイコロ（A, B, C の3面）を1回投げる
出る確率：( (p_A, p_B, p_C) = (0.6, 0.3, 0.1) )
例：出目が B の確率は ( P(X = B) = 0.3 )

 ✅ 二項分布の例（単一カテゴリ）コインを10回投げて表が出た回数を数える
( p = 0.7 )
確率変数 ( X \sim \mathrm{Bin}(n=10, p=0.7) )
例：表が7回出る確率

[

P(X = 7) = \binom{10}{7} (0.7)^7 (0.3)^3 \approx 0.2668

]

 ✅ 多項分布の例（多カテゴリ）サイコロ（A, B, C）を10回振って各出目の回数を数える
確率ベクトル：( (0.6, 0.3, 0.1) )
例：Aが6回、Bが3回、Cが1回出る確率

[

P(6,3,1) = \frac{10!}{6!3!1!} (0.6)^6 (0.3)^3 (0.1)^1 \approx 0.085

]

 ✅ ベータ分布の例（単一カテゴリの事前分布）コインの表が出る確率 ( p ) がわからない
過去の観測から「表5回、裏3回」だった → ベータ分布で事前分布を表現
( p \sim \mathrm{Beta}(5, 3) )
期待値：( \mathbb{E}[p] = \frac{5}{5+3} = 0.625 )

 ✅ ディリクレ分布の例（多カテゴリの事前分布）サイコロ（A, B, C）の出る確率がわからない
「Aは出やすそう（5回）、Bはまぁまぁ（2回）、Cはあまり出なさそう（1回）」という事前信念
( \boldsymbol{p} \sim \mathrm{Dir}(5, 2, 1) )
期待値：

[

\mathbb{E}[p_A] = \frac{5}{8},\quad \mathbb{E}[p_B] = \frac{2}{8},\quad \mathbb{E}[p_C] = \frac{1}{8}

]
このように、ベータ分布とディリクレ分布は、それぞれの世界（単一 or 多カテゴリ）で「確率そのもの」に対するランダム性を与える美しいパラメトリックモデルです。

構成要素	単一カテゴリモデル	多カテゴリモデル
データの分布	ベルヌーイ分布：成功 or 失敗の2値を1回観測	カテゴリカル分布：Kカテゴリから1つ選ばれる
繰り返し（n回）	二項分布：ベルヌーイをn回繰り返して成功回数をカウント	多項分布：カテゴリカルをn回繰り返して各カテゴリの回数をカウント
パラメータの事前分布	ベータ分布：成功確率 ( p \in [0,1] ) に対する事前分布	ディリクレ分布：確率ベクトル ( (p_1, ..., p_K) ) に対する事前分布

axjack

年代	人物・国	業績・貢献	代表的論文・著作（正式名称）
1654年	🇫🇷 ブレーズ・パスカル & ピエール・ド・フェルマー	賭け事の「分け前問題」をめぐる往復書簡。確率論の起源。	Correspondence on the Problem of Points（分け前問題に関する書簡）
1657年	🇳🇱 クリスティアーン・ホイヘンス	世界初の確率論の教科書を執筆。期待値概念の定式化。	De Ratiociniis in Ludo Aleae（『賭博における推論について』）
1713年	🇨🇭 ヤコブ・ベルヌーイ	大数の法則の初期形を提示。確率の理論的基礎。	Ars Conjectandi（『確率術』）※死後出版
1763年	🇬🇧 トーマス・ベイズ（死後）	ベイズ推論の萌芽。事後確率の原型的定式。	An Essay towards solving a Problem in the Doctrine of Chances（確率論の問題を解決するための試論）
1774年	🇫🇷 ピエール＝シモン・ラプラス	誤差分布として指数型分布（正規分布の前身）を導入。	Mémoire sur la probabilité des causes par les événements（出来事から原因の確率を推定する覚書）
1809年	🇩🇪 カール・フリードリッヒ・ガウス	正規分布を誤差理論に導入。最小二乗法と関連付ける。	Theoria motus corporum coelestium in sectionibus conicis solem ambientium（天体の運動理論）
1812年	🇫🇷 ピエール＝シモン・ラプラス	確率の体系的理論化、中心極限定理の初期形などを記述。	Théorie analytique des probabilités（『確率の解析理論』）
1867年	🇷🇺 パフヌティ・チェビシェフ	チェビシェフの不等式。確率論の厳密化の端緒。	Des valeurs moyennes（平均値に関する論文）ほか
1906年	🇷🇺 アンドレイ・マルコフ	マルコフ連鎖の定式化。非独立な系列に確率論を適用。	Extension of the Law of Large Numbers to Dependent Events（依存事象への大数の法則の拡張）
1908年	🇮🇪 ウィリアム・ゴセット（スチューデント）	t分布・t検定を導入。少数標本への対応。	The probable error of a mean（平均の標準誤差について）
1922年	🇬🇧 ロナルド・A・フィッシャー	最尤推定、情報量、不偏性、有効性の導入。推定論の創始。	On the Mathematical Foundations of Theoretical Statistics（理論統計学の数学的基礎について）
1933年	🇵🇱 / 🇬🇧 イェジー・ネイマン & イーゴン・ピアソン	検定理論の確立。NPの定理、検定力など。	On the Problem of the Most Efficient Tests of Statistical Hypotheses（統計的仮説に対する最も効率的な検定の問題について）
1933年	🇷🇺 アンドレイ・コルモゴロフ	測度論に基づく確率の公理化。現代確率論の出発点。	Grundbegriffe der Wahrscheinlichkeitsrechnung（確率論の基礎）
1935年	🇬🇧 ロナルド・A・フィッシャー	実験計画法を体系化。分散分析（ANOVA）の原型。	The Design of Experiments（実験計画法）
1945年	🇮🇳 カリンディ・ラオ（C. R. Rao）	CRLBの導出、Rao–Blackwellの定理の原型提示。	Information and the Accuracy Attainable in the Estimation of Statistical Parameters（母数推定において得られる精度と情報）
1946年	🇸🇪 ハラルド・クラーメル	CRLB・推定論の数学的精緻化。漸近理論も扱う。	Mathematical Methods of Statistics（『統計の数学的方法』）
1947年	🇺🇸 デイヴィッド・ブラックウェル	Rao–Blackwellの定理を完成。不偏推定量の改善法。	Conditional Expectation and Unbiased Estimation（条件付き期待値と不偏推定）
1950年	🇺🇸 エルンスト・レーマン & ヘンリー・シェフェ	完全性とUMVUEの理論化。推定量の構造理論を整理。	Completeness, Similar Regions, and Unbiased Estimation
1950年	🇺🇸 エイブラハム・ウォルド	決定理論、ワルド検定の理論化。リスクと損失の枠組みを導入。	Statistical Decision Functions（統計的決定関数）

axjack

 平均待ち時間15分の世界で理解する
 ポアソン過程・指数分布・ガンマ分布の美しいつながり
 はじめに確率論を学んでいると、「ポアソン分布」「指数分布」「ガンマ分布」という名前を頻繁に見かけます。

これらは一見バラバラな存在に見えますが、ポアソン過程という確率モデルを通して実はきれいにつながっています。
今回は、平均待ち時間が15分に1回イベント（例えば流れ星が見える、バスが来るなど）が起きる状況を例に、

これらの分布の関係を分かりやすく丁寧に解説します。

 前提条件平均待ち時間：15分に1回
単位：時間ではなく 分 で考えます
発生率（レート）：

\lambda = \frac{1}{15} \quad [\text{回/分}]

 3つの視点と分布の対応
 1. 回数を数える：ポアソン分布時刻 t 分までに起こったイベントの回数を

N(t)
とします。これはポアソン分布に従います：

N(t) \sim \mathrm{Poisson}\!\left(\frac{t}{15}\right)
例：30分でのイベント回数の平均は 30/15=2 回。
30分でちょうど2回起きる確率は：

P(N(30)=2) = e^{-2}\frac{2^2}{2!} \approx 0.2707

 2. 待ち時間を見る：指数分布連続するイベント間の待ち時間を

T_i \quad (i=1,2,\dots)
とします。これらは独立で同じ分布に従い：

T_i \sim \mathrm{Exp}\!\left(\frac{1}{15}\right)
密度関数：

f(t) = \frac{1}{15} e^{-t/15}, \quad t>0
例：最初のイベントが20分以上来ない確率：

P(T_1 > 20) = e^{-20/15} \approx 0.2636

 3. k番目が起きる時刻：ガンマ分布最初から k 回目のイベントが起きるまでの時間を

S_k = \sum_{i=1}^k T_i
とすると、これはガンマ分布に従います（スケールパラメータ型）：

S_k \sim \mathrm{Gamma}(k,\ \theta=15)
（shape = k, scale = 15 分）
例：3回目のイベントが起きるまでの平均時間：

E[S_3] = 3 \times 15 = 45 \ \text{分}

 3つの視点の関係性ここが一番の見どころです。
「20分以上待つ」確率は：

P(T_1>20)=e^{-20/15}
これは「20分で0回」の確率と同じ：

P(N(20)=0)=e^{-20/15}
「40分以内に3回起きる」確率は：

P(S_3 \le 40) = P(N(40)\ge 3)
つまり、回数 N(t)、待ち時間 T_i、累積時刻 S_k の3つは別々に見えるけれど、

実は同じ確率モデルの異なる切り口に過ぎないのです。

 直感的なまとめ
N(t) …「これまで何回起きたか？」（離散的なカウント → ポアソン分布）

T_i …「次が来るまでどのくらい待つか？」（連続的な待ち時間 → 指数分布）

S_k …「k回目はいつ来るか？」（累積待ち時間 → ガンマ分布）

 おわりに「15分に1回」というとても単純な前提から、
ポアソン分布
指数分布
ガンマ分布
という三大スターが自然につながって登場しました。
このつながりを理解すると、待ち行列や信頼性工学、自然現象のモデル化など多方面に応用でき、確率論の奥深さを肌で感じることができます。

axjack

 超幾何分布から二項分布への極限
 スタート：超幾何分布P(X=k) = \dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}.
これは「全体 N 個の中から M 個が当たり。そこから n 個取り出したとき、ちょうど k 個が当たりになる確率」。

 ステップ1：二項係数を展開する$\binom{M}{k}=\dfrac{M(M-1)\cdots(M-k+1)}{k!}, \quad

\binom{N-M}{,n-k,}=\dfrac{(N-M)(N-M-1)\cdots(N-M-(n-k)+1)}{(n-k)!},$
\binom{N}{n}=\dfrac{N(N-1)\cdots(N-n+1)}{n!}.
→ 分母と分子の階乗の形をバラして、1項ごとの比率を比べられるようにしました。

 ステップ2：形をまとめるこれをまとめると：
$P(X=k)

= \left(\dfrac{n!}{k!(n-k)!}\right)

\cdot

\left(\dfrac{M}{N}\cdot\dfrac{M-1}{N-1}\cdots\dfrac{M-k+1}{N-k+1}\right)

\cdot

\left(\dfrac{N-M}{N-k}\cdot\dfrac{N-M-1}{N-k-1}\cdots\dfrac{N-M-(n-k)+1}{N-(n-1)}\right).$

 ステップ3：極限の条件仮定は次のとおり：
母集団サイズ N \to \infty
当たり割合 \tfrac{M}{N} \to p (0<p<1) に収束する
抽出数 n は固定の有限値
→ 要するに「ものすごく大きな集団から、少しだけ取る」極限。

 ステップ4：成功側の積成功ブロック：
\dfrac{M}{N}\cdot\dfrac{M-1}{N-1}\cdots\dfrac{M-k+1}{N-k+1}.
各項を見てみます。たとえば最初の項：
\dfrac{M}{N} = \dfrac{M/N}{1} \to p.
2つ目の項：
\dfrac{M-1}{N-1} = \dfrac{M/N - 1/N}{1 - 1/N}.
ここで M/N \to p, かつ 1/N \to 0。だから分子も分母もそれぞれ p と 1 に近づき、全体として \to p。
同様に3つ目、4つ目もすべて \to p。したがって k 個掛け合わせると \to p^k。

 ステップ5：失敗側の積失敗ブロック：
\dfrac{N-M}{N-k}\cdot\dfrac{N-M-1}{N-k-1}\cdots\dfrac{N-M-(n-k)+1}{N-(n-1)}.
最初の項：
\dfrac{N-M}{N-k} = \dfrac{(N-M)/N}{(N-k)/N} = \dfrac{1 - M/N}{1 - k/N}.
ここで M/N \to p, かつ k/N \to 0（k は固定で N\to\infty）。

だから分子 \to 1-p, 分母 \to 1。全体 \to 1-p。
次の項も同様：
\dfrac{N-M-1}{N-k-1} = \dfrac{(N-M)/N - 1/N}{1 - (k+1)/N} \to 1-p.
繰り返すと、(n-k) 回すべて \to 1-p。したがって積は (1-p)^{n-k}。

 ステップ6：まとめしたがって極限は：
P(X=k) \;\to\; \left(\dfrac{n!}{k!(n-k)!}\right) \cdot p^k \cdot (1-p)^{\,n-k}.
これは二項分布 \mathrm{Bin}(n,p) の確率質量関数そのもの。

 結論超幾何分布は「有限母集団から重複なしに抽出するモデル」
母集団が無限に大きく、当たり割合が p に安定していれば、引くごとに確率はほぼ変わらず独立試行とみなせる
その極限で、超幾何分布は二項分布に収束する