Closed36

統計web

bayamasabayamasa

変数の尺度

  • 名義尺度
    他と区別し分類するための名称
    ex) 男女、血液型、住所

  • 順序尺度
    順序や大小はあるが、間隔は意味がないもの
    ex) 1位/2位/3位 好き/普通/嫌い

  • 間隔尺度
    目盛りが等間隔であり、間隔に意味があるもの
    ex) 気温、西暦、テストの点数

  • 比例尺度
    0が原点であり、間隔と比率に意味があるもの
    ex) 身長、速度、給料
    身長が150cmから30cm伸びると1.2倍(比率)が伸びたと言える。
    西暦などにおいては比率を参照することがまずないため、別々の尺度と言える。

bayamasabayamasa

間隔尺度と比例尺度の違いでテストの点数が挙げられているが、比例尺度において0というのは「無い」ということを意味する。
例えば血圧が0のとき、血圧が「無い」ことになる。
テストの場合、0は0点であり「無い」ことにはならないので、間隔尺度になるらしい。
(イマイチピンと来てない)

bayamasabayamasa

階級値
階級を代表する値
階級の真ん中の値となる

bayamasabayamasa

変動係数
ある標準偏差とある標準偏差を比べるときに、それらの標準偏差は同じ尺度に落とし込めない。
例えば男性の体重とネズミの体重の標準偏差を比べたときに、男性の体重の標準偏差は1kgを超えるケースが多々ある。なぜなら男性の体重の平均からのばらつきは、まぁ大体±5は有に超えてくるケースが多いからである。

逆にねずみはどうかというとだいたい平均が1kgを下回る。したがって標準偏差もそれより下の値になることが見込まれる。
そのような単位もとい期待される平均が異なる場合においての標準偏差は比例尺度になりえない。

ここで変動係数を使う。変動係数は平均値/標準偏差で表される。
これにより変動係数は単位を持たない値となり、比較が可能になる
https://bellcurve.jp/statistics/course/5929.html

bayamasabayamasa

標準偏差が必要な理由
分散は単位が各データに比べて2乗されている。
それに比べて標準偏差は単位が同一なので、同単位での計算が可能になる。

bayamasabayamasa

根元事象
数学で、一つの試みの結果起こりうる事柄のうち、もはや分解できないもののその試行に対する称。基本事象。単純事象。
→要するに、場合の数が一つに定まるパターンのことかな?

bayamasabayamasa

事象を求めるときは論理集合をかくと良い
和事象
A ∨ B

積事象
A ∧ B

bayamasabayamasa

条件つき確率
確率が連鎖的になっているケース

赤色と白色の玉が袋に入っていて、数字が書いてある場合を考える。
一つ袋から値を取り出すと、その玉は赤色だった。
その玉にかかれている数字が1である確率はいくつか。

袋から取り出したときの確率をP(A)
玉にかかれている数字がP(B)だとすると、条件付き確率P(A|B)は
P(A|B) = P(A∧B) / P(A)で表すことができる。

このように最初の条件の確率を分母にとり、のちの確率との積事象を分子にもってくることで積事象を求める事ができる

bayamasabayamasa

確率の独立性
2つの事象について、一方の事象が変化したときにもう一方の事象が変化せず、それが相互に言える場合、この2つの事象は独立であると言う。独立でない場合は、連関がある、または関連があると言う。

bayamasabayamasa

背反は独立とは異なり、各確率に対して一つの確率が起きたときに、もう一つの確率が起きないことを指す。
この場合条件付き確率は以下のようになる
P(A|B) = 0

bayamasabayamasa

確率密度関数
連続型確率変数において、以下のような式が成り立つ場合、その確率の関数は確率密度関数と呼ぶ

1 \geq p(x) \geq 0, \hspace{20px} \sum_{i=1}^{\infty} p(x_i) = 1

bayamasabayamasa

確率密度関数は、一点の値における値は0になる(十分小さいという意味)
確率密度関数は、ある範囲の値のでやすさを表している。

bayamasabayamasa

連続型確率変数の期待値
期待値は事象の数 × 事象の確率で表される。
そのため、連続型確率変数の期待値は以下の様に表される

E(X) = \int_{-∞}^{∞}xf(x)dx
bayamasabayamasa

確率変数における分散は事象x - 期待値μで表される。
確率においてもまた期待値は同じだが分散が異なるといった場合が存在する。
そのため期待値のばらつきを計算する際に、分散は有効な手段である。

bayamasabayamasa

連続型確率変数の期待値は以下のように表される。
μは期待値E(X)である。

E(X) = \int_{-∞}^{∞}(x - μ)^2 f(x)dx

この式を変形すると、以下のように期待値のみで表す事ができる。
V(X) = E(X^2) - \left\{E(X)\right\}^2

bayamasabayamasa

ベルヌーイ試行
コインの表裏のように、何かを行ったときに事象が2つしか無いような試行をベルヌーイ試行と呼ぶ

bayamasabayamasa

二項分布における期待値と分散は以下のようになる

E(X) = np
V(X) = np(1-p)
bayamasabayamasa

ポアソン分布

二項分布において施行回数が多く、事象が起きる確率がとても小さいときにnp = 一定とすることにより計算を簡略化できる。
np = λとすると
ある期間に平均λ回起こる現象が、ある期間にX回起きる確率の分布は以下の式で表される。

f(x) = \frac{e^{-\lambda}\lambda^x}{x!}
bayamasabayamasa

例えば車の製造業者において、1台車を作ったときに不良品である確率を、10000台のうち1台のみとする。
このとき、100万台車を作ったときに不良品が一つ出る確率は
n(施行回数) = 1000000, p(不良品確率)1/10000であるので
λ = 1000000 × 1/10000 = 100となる。

P(X = 1) = (e ^(-100) * 100^1) / 1! = 3.720075976020836e-44

3.720 ^(-44)という数が近似として表される

bayamasabayamasa

ポアソン分布における期待値と分散は以下で表される

E(X) = \lambda
V(X) = \lambda

よって、np = λのλを期待値/分散などから求めることもできる

bayamasabayamasa

幾何分布
各確率が独立しているときに、同じ試行でn回目に初めて事象が確認されるという確率xに対して成功する確率をp、失敗する確率を1-pとすると、幾何分布の確率関数は以下のようになる

f(x) = p(1-x)^{x-1}

このスクラップは2022/05/04にクローズされました