統計web

bayamasa 2021/09/24

https://bellcurve.jp/statistics/course/

bayamasa 2021/09/24

変数の尺度

名義尺度
他と区別し分類するための名称
ex) 男女、血液型、住所
順序尺度
順序や大小はあるが、間隔は意味がないもの
ex) 1位/2位/3位好き/普通/嫌い
間隔尺度
目盛りが等間隔であり、間隔に意味があるもの
ex) 気温、西暦、テストの点数
比例尺度
0が原点であり、間隔と比率に意味があるもの
ex) 身長、速度、給料
身長が150cmから30cm伸びると1.2倍(比率)が伸びたと言える。
西暦などにおいては比率を参照することがまずないため、別々の尺度と言える。

bayamasa 2021/09/24

間隔尺度と比例尺度の違いでテストの点数が挙げられているが、比例尺度において0というのは「無い」ということを意味する。
例えば血圧が0のとき、血圧が「無い」ことになる。
テストの場合、0は0点であり「無い」ことにはならないので、間隔尺度になるらしい。
(イマイチピンと来てない)

bayamasa 2021/09/24

階級値
階級を代表する値
階級の真ん中の値となる

bayamasa 2021/09/24

相対度数
度数の合計を1としたときの度数の比率

bayamasa 2021/09/25

幾何平均
何かしらの比率や割合が変化するデータに対して使用する平均
要素のルートを取る

調和平均
逆数の和をnで割ったもの
速度の平均などを出す時に使用する

bayamasa 2021/09/26

幹葉表示
最頻値や中央値などがわかりやすい

bayamasa 2021/09/28

偏差
その値から平均値を引いたもの

bayamasa 2021/09/28

変動係数
ある標準偏差とある標準偏差を比べるときに、それらの標準偏差は同じ尺度に落とし込めない。
例えば男性の体重とネズミの体重の標準偏差を比べたときに、男性の体重の標準偏差は1kgを超えるケースが多々ある。なぜなら男性の体重の平均からのばらつきは、まぁ大体±5は有に超えてくるケースが多いからである。

逆にねずみはどうかというとだいたい平均が1kgを下回る。したがって標準偏差もそれより下の値になることが見込まれる。
そのような単位もとい期待される平均が異なる場合においての標準偏差は比例尺度になりえない。

ここで変動係数を使う。変動係数は平均値/標準偏差で表される。
これにより変動係数は単位を持たない値となり、比較が可能になる

bayamasa 2021/09/28

変動係数 = 標準偏差 ÷ 平均値

bayamasa 2021/09/28

標準偏差が必要な理由
分散は単位が各データに比べて２乗されている。
それに比べて標準偏差は単位が同一なので、同単位での計算が可能になる。

bayamasa 2021/09/30

根元事象
数学で、一つの試みの結果起こりうる事柄のうち、もはや分解できないもののその試行に対する称。基本事象。単純事象。
→要するに、場合の数が一つに定まるパターンのことかな？

bayamasa 2021/09/30

事象を求めるときは論理集合をかくと良い
和事象
A ∨ B

積事象
A ∧ B

bayamasa 2021/09/30

条件つき確率
確率が連鎖的になっているケース

赤色と白色の玉が袋に入っていて、数字が書いてある場合を考える。
一つ袋から値を取り出すと、その玉は赤色だった。
その玉にかかれている数字が1である確率はいくつか。

袋から取り出したときの確率をP(A)
玉にかかれている数字がP(B)だとすると、条件付き確率P(A|B)は
P(A|B) = P(A∧B) / P(A)で表すことができる。

このように最初の条件の確率を分母にとり、のちの確率との積事象を分子にもってくることで積事象を求める事ができる

bayamasa 2021/09/30

確率の独立性
2つの事象について、一方の事象が変化したときにもう一方の事象が変化せず、それが相互に言える場合、この2つの事象は独立であると言う。独立でない場合は、連関がある、または関連があると言う。

bayamasa 2021/09/30

背反は独立とは異なり、各確率に対して一つの確率が起きたときに、もう一つの確率が起きないことを指す。
この場合条件付き確率は以下のようになる
P(A|B) = 0

bayamasa 2021/10/01

ベイズの定理
事前確率と事後確率が存在する確率の計算において利用される式

bayamasa 2021/10/01

実際に起きたことを事後確率Aとすると、事前確率をBとし
P(B)(A|B)として表される

bayamasa 2021/10/04

確率質量変数
ある離散型変数Xが存在するときに、その離散型変数の各確率が0 <= x <= 1であり。
各確率の合計が1になる時、その確率における関数は確率質量変数と呼ぶ

bayamasa 2021/10/04

bayamasa 2021/10/04に更新

確率密度関数
連続型確率変数において、以下のような式が成り立つ場合、その確率の関数は確率密度関数と呼ぶ

1 \geq p(x) \geq 0, \hspace{20px} \sum_{i=1}^{\infty} p(x_i) = 1

bayamasa 2021/10/04

確率密度関数は、一点の値における値は0になる(十分小さいという意味)
確率密度関数は、ある範囲の値のでやすさを表している。

bayamasa 2021/10/05

連続型確率変数の期待値
期待値は事象の数 × 事象の確率で表される。
そのため、連続型確率変数の期待値は以下の様に表される

E(X) = \int_{-∞}^{∞}xf(x)dx

bayamasa 2021/10/05

確率変数における分散は事象x - 期待値μで表される。
確率においてもまた期待値は同じだが分散が異なるといった場合が存在する。
そのため期待値のばらつきを計算する際に、分散は有効な手段である。

bayamasa 2021/10/05

連続型確率変数の期待値は以下のように表される。
μは期待値E(X)である。

E(X) = \int_{-∞}^{∞}(x - μ)^2 f(x)dx

この式を変形すると、以下のように期待値のみで表す事ができる。

V(X) = E(X^2) - \left\{E(X)\right\}^2

bayamasa 2021/10/14

ベルヌーイ試行
コインの表裏のように、何かを行ったときに事象が２つしか無いような試行をベルヌーイ試行と呼ぶ

bayamasa 2021/10/14

二項分布における期待値と分散は以下のようになる

E(X) = np

V(X) = np(1-p)

bayamasa 2021/10/14

ネイピア数 e

要はよく出てくる値をeとして表したことにより、計算を簡易に進めようという話

bayamasa 2021/10/26に更新

ポアソン分布

二項分布において施行回数が多く、事象が起きる確率がとても小さいときにnp = 一定とすることにより計算を簡略化できる。
np = λとすると
ある期間に平均λ回起こる現象が、ある期間にX回起きる確率の分布は以下の式で表される。

f(x) = \frac{e^{-\lambda}\lambda^x}{x!}

bayamasa 2021/10/14に更新

例えば車の製造業者において、1台車を作ったときに不良品である確率を、10000台のうち1台のみとする。
このとき、100万台車を作ったときに不良品が一つ出る確率は
n(施行回数) = 1000000, p(不良品確率)1/10000であるので
λ = 1000000 × 1/10000 = 100となる。

P(X = 1) = (e ^(-100) * 100^1) / 1! = 3.720075976020836e-44

3.720 ^(-44)という数が近似として表される

bayamasa 2021/10/15に更新

ポアソン分布における期待値と分散は以下で表される