統計学まわりの小ネタメモ
相関係数と回帰係数の関係って、どうなっていたっけ?
設定
変数
それぞれ平均・分散が
問い
上記の状況で、単回帰モデル
を作成すると、回帰係数
結果
導出
ここで、多変量正規分布の条件付き確率を思い出す。
ベクトル
このとき、以下が成り立つ:
これを用いると、
以上から、
が成り立つ。
(なお、
考察
\rho と回帰係数\alpha の関係
相関係数相関係数
相関係数
\rho と誤差\varepsilon の関係
相関係数相関係数
誤差項は
逆に
このときは前述のように
逆に、単回帰の係数や誤差項分散の大きさから相関係数について何がわかるか?
この場合、
-
... 無相間\alpha=0 \rho=0 -
...\sigma_\varepsilon^2=0 \rho = \pm 1
が言える。
一方で、回帰係数の大小から直接相関係数の大小を論じることはできない。
仮に相関係数が
尖度と歪度
定義
ある分布に従う確率変数
このとき、この分布の歪度(skewness)
なお、後述のように正規分布では上記の定義における尖度の値が
を尖度として用いることもある。
意味
歪度(skewness)は、分布が期待値を基準にどれだけ左右非対称かを表す。
逆に
尖度(kurtosis)は、分布の尖り具合と裾の広さを表す。
正規分布の場合
確率変数
導出
まず、
正規分布
次に、下記より
Bernoulli 分布の場合
確率変数
導出
まず、
そのうえで、
であるので、式(1)より歪度は
次に、
であるので、式(2)より尖度は
特に、
参考文献
- 中川重和「正規性の検定 (統計学One Point)」(共立出版、2019)
Gamma 分布
以下のような確率密度関数を持つ分布を、Gamma 分布と呼ぶ:
なお、
上記の表記の他に、
と表すこともある。
NumPy, SciPy では後者の表記が用いられており、 scale
という引数名で
統計量
期待値
導出
分散
導出
ここで、
より、
よって、
歪度(skewness)
導出
ここで、
である。途中、
従って、
より
尖度(kurtosis)
導出
ここで、
より(導出省略)、
となり、
モーメント母関数
導出
参考
「総額の q % を上位 p % のユーザーが占めている」をどう表すか?
よくアプリの売上や資産額などで、「総額の q %を上位 p % のユーザーが占めている」などといった記述を目にする。
これを数式を用いてどのように表すことができるかを考えてみた。
さらに、Gamma 分布では上記を簡単に計算する方法があることに気がついたのでそれについても触れる。
以下、面倒なので
数式で表してみる
売上や資産額を
また、
このとき、
と表せる。ただし、
Gamma 分布の場合
とする。
このとき、式(2) の左辺は以下のように表される:
これは、
従って、確率密度分布が
これらを用いると、式(1) から
計算例
from scipy.stats import gamma
alpha = 0.001
beta = 0.00001
q=0.99
z = gamma.ppf(1-q, alpha+1, scale=1/beta)
# もしくは、z = gamma.isf(q, alpha+1, scale=1/beta)
p = gamma.sf(z, alpha, scale=1/beta)
print(p)
# > 0.004020670587092209
(参考)
-
実は、
には何を入れても構わない。 ↩︎\beta > 0