統計学入門第二章 1次元のデータ

度数分布表

用語
階級: データを区切る範囲
階級値: 階級の中央値
度数: 区切られた範囲に存在するデータの個数
累積度数: 度数の合計
相対度数: 最大値を1としたときの度数
累積相対度数: 最大値を1としたときの度数の合計

度数、相対度数よりも累積度数/累積相対度数の方がデータとして有用な場合もある。
例えば、年収と人口のデータなどで年収400万以下のデータとしたときには、400万の度数ではなく、400万までの累積度数となる。
更には、400万以下の人口は何%みたいなことを聞かれた場合には、累積相対度数が使用される。

階級のとり方はグラフ作成者が自由に設定できる。
だから、変なピークが存在する場合うまく丸める事によってデータの見せ方を変える事ができるので注意

ローレンツ曲線
２つのパラメータの累積相対度数を縦/横軸に取るグラフ
全てのパラメータが同じ値を取る場合、グラフは斜め45度をきれいに取る。

代表値
あるグラフの中から、一つの代表する値
ヒストグラムが人間の視覚的に訴えやすい特徴を持つのに対して、代表値は後々の算術的な応用や、コミュニケーションなどに用いられる場合が多い。

平均値
全ての値の平均
平均は時として、正常な値が取りにくい場合がある。
というのも外れ値(min, max)が平均に大きく影響を与えることで、直感的な値と合わなくなってしまう場合があるからである。

これを解決するためにいくつか方法がある。
一つは異常値を除外してしまうという方法である。
平均を取る場合、端のデータ(min, max)を除外しても計算的に影響は少ない。
なぜなら平均とはすべてのデータの真ん中の値であり、おおよそデータが多い箇所に取られる場合が可能性が高いからである。

他には端のデータに対して値を適当に決めてしまうことである。
ある程度の値を仮で定めることで直感的に正しい値を求める

平均にはいくつか種類が存在し、データの種類によって扱うべき平均の計算が異なるhttp://www.ries.co.jp/project/topic_point_of_view.html

メディアン(中央値)
例えば以下データが存在する
[1, 1, 1, 1, 2, 3, 4, 5, 16, 20]
このときの算術平均は5.4となる。

ただ実際に5.4という値は存在しない。
このように数は少ないが、値は大きいというデータ列の場合平均を使うのは適当ではない。

このような場合は中央値を使う。
中央値は、要素のを並べて真ん中の値を取る。

今回の例でいうとデータが10個あるので、データ列の真ん中は5.5となる。
そのためarray[5 + 6]/2が中央値となる。
今回だと2.5になる。

四分位点(Quarter)
メディアンを真ん中つまり1/2とすると、1/4を四分位点とする。
またメディアンを第2四分位点、3/4を第3四分位点とする。

モード(最頻値)
データの頂点。一番多く値が存在するところ。

四分位偏差
ある度数分布に対して、rangeというものがある。
これは度数のばらつきを表したもので、データがどのくらいまとまっているかを示している。

しかし、これはmax - minで表されるもので、グラフによってかなりばらつきが存在してしまうので、余り現実的に有用なものではない。

そのため四分位偏差
四分位点と第３四分位点から求める範囲が度数分布の範囲を表す値としてよく使われる。

四分位偏差Qは以下である
Q = 1/2 (Q3 - Q1)

平均偏差
各値と平均の差との絶対値を要素数で割ったもの

分散
各値と平均の差を2乗して要素数で割ったもの

平均偏差よりも分散/標準偏差がよく使われる理由

シンプルに計算しやすいから
平均偏差は絶対値を扱うためパターン分けをしなくてはいけない。
それは面倒
平均値からのばらつき、分布を表すのに適切だから
説明するのが難しいのだが、損失関数というものを使うといいらしい
要するにその関数が取りうる最小値を見ることで、その関数がどの範囲の値を取りうるのかを判断する

計算してみると分散は最小値が平均値と同じ。平均偏差は中央値と同じ値を取る。
そのため平均周りの分布を扱うときには、より精度の高い分散を使うのが一般的らしい

標準得点
平均と標準偏差を用いて、別々の分布における比較を行う方法

偏差値とはこの数式において平均を50、標準偏差を10としたときの値である。

このスクラップは2021/08/27にクローズされました