📌

Erdös-Rényi(ER)モデルにおける平均次数、クラスタ係数、次数分布の求め方

2023/02/04に公開

network

この記事の概要

私は、任意の特徴量を持ったグラフを生成する研究に携わっています。現在のグラフ生成の研究では、Deep Leaningを用いるのが一般的です。しかし、Deep Learningが主流になる以前は、何らかのアルゴリズム(ERモデル、RSモデル、BAモデルなど)によって任意の特徴量を持つグラフを生成していました。この記事では、最も単純な統計的グラフ生成モデルであるErdös-Rényi(ER)モデルが持つ特徴を数式を交えて説明します。

Erdös-Rényi（ER)モデルとは

1959年に提案されたErdös-Rényi(ER)モデル[5]は最も原始的なグラフ生成モデルです。このモデルは、与えられたノード間に一定確率でエッジを張るというシンプルなアルゴリズムで構成されます。ERモデルは、ノード数nとノード間にエッジを張る確率pをパラメータにもちます。従って、ERモデルによって生成されるグラフを $G_{ER}(n,p)$ と表すことにします。このグラフは、ランダムにエッジを張るため特別なノードが存在しないという特徴があります。

平均次数

$G_{ER}(n,p)$ の平均次数 $\bar{d}$ は、次のように表されます。

\bar{d}=\sum_{d=0}^{n}d\cdot{}_{n-1}C_d\cdot p^d(1-p)^{n-1-d}=(n-1)p

計算方法

次数とは、あるノード $v$ に接続されているエッジの本数のことです。まず、平均次数を求める前にあるノード $v$ が次数 $d$ である確率を考えます。

ノード $v$ の次数が $d$ である時、自分以外の $n-1$ 個のノードから $d$ 個のノードを選択したことになります。従って、 ${}_{n-1}C_d$ です。
$d$ 個のノードと接続される確率は、 $p^d$ であり、 $n-1-d$ 個のノードと接続されない確率は、 $(1-p)^{n-1-d}$ です。
従って、ノード $v$ の次数が $d$ である確率は、次のように表せます。

P(deg(v)=d)={}_{n-1}C_d\cdot p^d(1-p)^{n-1-d}\quad(1)

ここで、 $deg()$ は、ノード $v$ の次数を返す関数です。
上の確率を用いて、平均次数は期待値として計算することができます。平均次数を $\bar{d}$ で表すことにすると、

\bar{d}=\sum_{d=0}^{n}d\cdot{}_{n-1}C_d\cdot p^d(1-p)^{n-1-d}\quad(2)

と表せます。ここで、確率 $p$ 及び $q(=1-p)$ を用いた二項定理を考えます。

(p+q)^{n-1}=\sum_{d=0}^{n}{}_{n-1}C_d\cdot p^dq^{n-1-d}

両辺をpで微分すると、

(n-1)(p+q)^{n-2}=\sum_{d=0}^{n}d \cdot{}_{n-1}C_d\cdot p^{d-1}q^{n-1-d}

(n-1)(p+q)^{n-2}=\frac{1}{p}\sum_{d=0}^{n}d \cdot{}_{n-1}C_d\cdot p^{d}q^{n-1-d}

となります。ここで、 $q=1-p$ を代入すると

(n-1)(p+(1-p))^{n-2}=\frac{1}{p}\sum_{d=0}^{n}d \cdot{}_{n-1}C_d\cdot p^{d}(1-p)^{n-1-d}

(n-1)p=\sum_{d=0}^{n}{}_{n-1}C_d\cdot d \cdot p^{d}(1-p)^{n-1-d}

となります。右辺が(2)式で示した $\bar{d}$ の式と一致するので証明終了です。

クラスタ係数

$G_{ER}(n,p)$ のノード $v$ のクラスタ係数 $C(v)$ は、次のように表されます。

C(v)=\frac{p\times\frac{1}{2}deg(v)(deg(v)-1)}{\frac{1}{2}deg(v)(deg(v)-1)}=p=\frac{\bar{d}}{n-1}

ここで、 $C(),deg()$ はノード $v$ のクラスタ係数及び次数を返す関数とします。

計算方法

クラスタ係数とは、ノード $v$ 毎に定まる値です。ノード $v$ のクラスタ係数を返す関数を $C()$ とします。クラスタ係数は、ノード $v$ に接続しているノード同士がどれくらい互いに接続し合っているかを表す値です。以下のように考えます。

ノード $v$ に接続されているノード数は $deg(v)$ で表されます。
$deg(v)$ 個のノードが互いに接続する組み合わせは、 ${}_{deg(v)}C_2$ なので、全ての組み合わせは次のように表されます。

\frac{1}{2}deg(v)(deg(v)-1)

確率 $p$ でエッジは張られるので、実際に張られるエッジの本数は、

p\times\frac{1}{2}deg(v)(deg(v)-1)

と表されます。これらの比からクラスタ係数を計算することができます。

次数分布

ノード数 $n$ が十分に大きい時、平均次数 $\bar{d}$ は一定値に近づくことが知られています。従って、次のような仮定をおきます。

n\to\infty\Rightarrow(n-1)p=\lambda,\quad(\lambda:const.)

この時、 $G_{ER}(n,p)$ の次数を $d$ として次数分布 $P_{d}$ は、次のように表されます。また、 $n$ が十分に大きい時、この分布はポアソン分布に従います。

P_{d}={}_{n-1}C_d\cdot p^d(1-p)^{n-1-d}\sim\frac{\lambda^{d}}{d!}e^{-\lambda}

計算方法

次数分布とは、次数が $d$ であるようなノードの分布を示したものです。次数分布とは、(1)式で求めた確率の(離散)確率分布として与えられます。従って、次のように表されます。

P_{d}={}_{n-1}C_d\cdot p^d(1-p)^{n-1-d}

$n\to\infty$ とした時に、ERモデルの次数分布はポアソン分布に従うことを証明します。二項分布の極限がポアソン分布に従うことは、ポアソンの小数の法則として広く知られています。[3]
最初に、次のような式変形を行います。

\begin{aligned} P_d & =\frac{(n-1) !}{d !(n-1-d) !} p^d(1-p)^{n-1-d} \\ & =\frac{n(n-1) \cdots(n-d) p^d}{d !}\left(1-\frac{\lambda}{n}\right)^{n-1-d}\quad(3)\\ & =\frac{1}{d !} \cdot 1 \cdot\left(1-\frac{1}{n}\right) \cdots\left(1-\frac{d}{n}\right) n^d p^d\left(1-\frac{\lambda}{n-1}\right)^{n-1-d}\quad(4)\\ & =\frac{\lambda^d}{d !} 1 \cdot\left(1-\frac{1}{n}\right) \cdots\left(1-\frac{d}{n}\right) \frac{\left(1-\frac{\lambda}{n-1}\right)^{n-1}}{\left(1-\frac{\lambda}{n-1}\right)^{d}} \end{aligned}

わかりにくいですが、(3)式から(4)式への変形では、 $n^d$ で括っています。また、後で定義しますが $\lambda=np$ としています。
nが十分に大きい時、平均次数 $\bar{d}$ が一定値 $\lambda$ に収束すると仮定します。この仮定の妥当性を現実の対人関係のネットワークに置き換えて考えてみます。世界人口が多少増減したところで一人の人間が付き合える人間の数に変化はありません。従って、十分巨大なネットワークにおいて平均次数 $\bar{d}$ が一定値となることを仮定することは妥当であると考えられます。
仮定より、 $\lambda=(n-1)p=const.$ として、 $n\to\infty$ とすることを考えます。

\begin{aligned} & \lim _{n \rightarrow \infty} 1 \cdot\left(1-\frac{1}{n}\right) \cdots\left(1-\frac{d}{n}\right)=1 \\ & \lim _{n \rightarrow \infty}\left(1-\frac{\lambda}{(n-1)}\right)^{d}=1 \end{aligned}

となります。ネイピア数の定義より、

e\equiv\lim _{x \rightarrow \pm \infty}\left(1+\frac{1}{x}\right)^x

なので、

\begin{aligned} & \lim _{n \rightarrow \infty}\left(1-\frac{\lambda}{n-1}\right)^{n-1}=\lim _{n \rightarrow \infty}\left\{\left(1-\frac{\lambda}{n-1}\right)^{-(n-1)/\lambda}\right\}^{-\lambda} \\ & =\lim _{x \rightarrow-\infty}\left\{\left(1+\frac{1}{x}\right)^x\right\}^{-\lambda}\left(x=-\frac{n-1}{\lambda}\right) \\ & =e^{-\lambda} \end{aligned}

となります。従って、まとめると

\lim_{n\to\infty}P_d=\frac{\lambda^d}{d !}e^{-\lambda}

となり証明終了です。

参考

[1] 複雑ネットワークの統計的性質北海道大学工学研究科応用物理学専攻
矢久保考介
[2] Large Graphs, John Hopcroft
[3] ポアソン分布 | 高校物理の備忘録
[4] Erdos-Renyi Random Graph | An Explorer of Things
[5] P. Erdös and A. Rényi, "On Random Graphs I," Publicationes Mathematicae, vol. 6, no. 26, 1959.

GitHubで編集を提案

この記事の概要

Erdös-Rényi（ER)モデルとは

平均次数

計算方法

クラスタ係数

計算方法

次数分布

計算方法

参考

Discussion