統計web
変数の尺度
-
名義尺度
他と区別し分類するための名称
ex) 男女、血液型、住所 -
順序尺度
順序や大小はあるが、間隔は意味がないもの
ex) 1位/2位/3位 好き/普通/嫌い -
間隔尺度
目盛りが等間隔であり、間隔に意味があるもの
ex) 気温、西暦、テストの点数 -
比例尺度
0が原点であり、間隔と比率に意味があるもの
ex) 身長、速度、給料
身長が150cmから30cm伸びると1.2倍(比率)が伸びたと言える。
西暦などにおいては比率を参照することがまずないため、別々の尺度と言える。
間隔尺度と比例尺度の違いでテストの点数が挙げられているが、比例尺度において0というのは「無い」ということを意味する。
例えば血圧が0のとき、血圧が「無い」ことになる。
テストの場合、0は0点であり「無い」ことにはならないので、間隔尺度になるらしい。
(イマイチピンと来てない)
幾何平均
何かしらの比率や割合が変化するデータに対して使用する平均
要素のルートを取る
調和平均
逆数の和をnで割ったもの
速度の平均などを出す時に使用する
幹葉表示
最頻値や中央値などがわかりやすい
偏差
その値から平均値を引いたもの
変動係数
ある標準偏差とある標準偏差を比べるときに、それらの標準偏差は同じ尺度に落とし込めない。
例えば男性の体重とネズミの体重の標準偏差を比べたときに、男性の体重の標準偏差は1kgを超えるケースが多々ある。なぜなら男性の体重の平均からのばらつきは、まぁ大体±5は有に超えてくるケースが多いからである。
逆にねずみはどうかというとだいたい平均が1kgを下回る。したがって標準偏差もそれより下の値になることが見込まれる。
そのような単位もとい期待される平均が異なる場合においての標準偏差は比例尺度になりえない。
ここで変動係数を使う。変動係数は平均値/標準偏差
で表される。
これにより変動係数は単位を持たない値となり、比較が可能になる
変動係数 = 標準偏差 ÷ 平均値
標準偏差が必要な理由
分散は単位が各データに比べて2乗されている。
それに比べて標準偏差は単位が同一なので、同単位での計算が可能になる。
根元事象
数学で、一つの試みの結果起こりうる事柄のうち、もはや分解できないもののその試行に対する称。基本事象。単純事象。
→要するに、場合の数が一つに定まるパターンのことかな?
事象を求めるときは論理集合をかくと良い
和事象
A ∨ B
積事象
A ∧ B
条件つき確率
確率が連鎖的になっているケース
赤色と白色の玉が袋に入っていて、数字が書いてある場合を考える。
一つ袋から値を取り出すと、その玉は赤色だった。
その玉にかかれている数字が1である確率はいくつか。
袋から取り出したときの確率をP(A)
玉にかかれている数字がP(B)だとすると、条件付き確率P(A|B)は
P(A|B) = P(A∧B) / P(A)
で表すことができる。
このように最初の条件の確率を分母にとり、のちの確率との積事象を分子にもってくることで積事象を求める事ができる
確率質量変数
ある離散型変数Xが存在するときに、その離散型変数の各確率が0 <= x <= 1であり。
各確率の合計が1になる時、その確率における関数は確率質量変数と呼ぶ
確率密度関数
連続型確率変数において、以下のような式が成り立つ場合、その確率の関数は確率密度関数と呼ぶ
確率密度関数は、一点の値における値は0になる(十分小さいという意味)
確率密度関数は、ある範囲の値のでやすさを表している。
連続型確率変数の期待値
期待値は事象の数 × 事象の確率
で表される。
そのため、連続型確率変数の期待値は以下の様に表される
ベルヌーイ試行
コインの表裏のように、何かを行ったときに事象が2つしか無いような試行をベルヌーイ試行と呼ぶ
二項分布における期待値と分散は以下のようになる
ネイピア数 e
要はよく出てくる値をeとして表したことにより、計算を簡易に進めようという話
ポアソン分布
二項分布において施行回数が多く、事象が起きる確率がとても小さいときにnp = 一定とすることにより計算を簡略化できる。
np = λとすると
ある期間に平均λ回起こる現象が、ある期間にX回起きる確率の分布
は以下の式で表される。
例えば車の製造業者において、1台車を作ったときに不良品である確率を、10000台のうち1台のみとする。
このとき、100万台車を作ったときに不良品が一つ出る確率は
n(施行回数) = 1000000, p(不良品確率)1/10000であるので
λ = 1000000 × 1/10000 = 100
となる。
P(X = 1) = (e ^(-100) * 100^1) / 1! = 3.720075976020836e-44
3.720 ^(-44)という数が近似として表される
ポアソン分布における期待値と分散は以下で表される
よって、np = λのλを期待値/分散などから求めることもできる
幾何分布
各確率が独立しているときに、同じ試行でn回目に初めて事象が確認されるという確率xに対して成功する確率をp、失敗する確率を1-pとすると、幾何分布の確率関数は以下のようになる
幾何分布における期待値と分散
導出方法はこちら
マクローリン展開
ある関数を多項式の近似することができる。