統計学メモ

統計学Tips

データの2種類
量的データと質的データの2つに分かれる
-
量的データとは、データが数値で示されるもの
データの「量(数値)」が基準の変数
身長、体重など
これらは、数値データなので、そのまま計算にも利用することができる
「定量的」に表すことができるデータであり、値の差に意味を持つ
量的変数とも呼ばれる。 -
質的データとは、データがカテゴリで示されるもの
性別、名前など
数値データではないので、そのまま計算に利用することができない
計算に使うためには、特殊な措置が必要
「定量的」に表すことができないデータであり、値の差に意味を持たない
質的変数、カテゴリ変数、属性変数とも呼ばれる。

離散型と連続型
量的データは、2種類に分類することができる
- 離散型(discrete variable)
- 連続型(continuous variable)
-
離散型
離散型は、取りうる値が飛び飛びになっている変数のこと
サイコロの出る目など
1の次は2、2の次は3というように、1.1や1.5などの値を取ることができない
このような値を離散量とよぶ -
連続型
連続型は、繋がった値をとる変数のこと
身長のように、170cmのこともあれば、170.11cmも。
さらに、170.000001cmというのも有り得る。
値と値の間に無限に取りうる値がある。
このような値を連続量と呼ぶ。
例えばテストの点数のように、1点から100点まで1点刻みのデータでも、
取り得る値が非常に多いので、連続型の変数として扱うことが多い
この扱い方の境界に明確な基準は無く、そのときの状況によって臨機応変に対応していく必要がある

4つの尺度
質的変数は、名義尺度と順位尺度に分けられる
量的変数は、間隔尺度と比例尺度に分けられる
名義尺度
単にカテゴリを表す「数値でない」データ
名義尺度とは、名前付けとしてだけで使う尺度の事です。
国道1号、2号とかって感じです。
1や2と言った数字の大きさに順序もなければ、間隔にも意味はありません。
これを数字として、計算すると当然大変なことになります。
順番がない。名前、性別など。
順位尺度
1位、2位、3位というように序列を表すための尺度を言います。
名義尺度と違い、数字の大きさ、順番には意味があります。
しかし、数字の間隔には意味がありません。
例えば短距離走において1位と2位の差は0.3秒程度の僅差だったが、2位と3位の差は3秒の開きがあるといったように、順位間の差が均等な差を必ずしも示すわけではないということです。
一見数値化されており、比較出来るようになっていますが、数値の間隔に意味が無い為、統計的な処理が非常に困難
平均値にすら適用が出来ないレベル
数値ではないですが、順序がある質的変数になります。例えばランキング
ランキングの順位では平均値は出せません。
1〜5位の平均は「3位」とは計算できないことからランキングの数字には数値的な意味はないことがわかります。
間隔尺度
テストの点数や温度など数値の間隔に意味の有る尺度を指します。
温度において考えると、
10℃と8℃の差と8℃と6℃の差は、両方とも同じ1℃の差で等間隔です。
しかしながら、この尺度は比を使う事が出来ないです。
10℃から20℃になったとき、実は2倍になったとは言えない
間隔尺度は、数値データではありますが、「0」に意味をなさない量的変数になります。
つまり「0=ない」という意味ではないものをいいます。
例えば、温度や西暦です。0度は温度がないという意味ではなく、相対的な温度として0度と表されています。西暦も「西暦0年」は「ない」という意味ではありません。
比例尺度
間隔にも意味があり、比にも意味がある尺度を比例尺度と言います。
身長や体重などが該当します。
非常に間隔尺度と区別がつきづらいです。
これらの区別をつける方法としては、原点に意味があるのかという観点が重要になってきます。
例えば、間隔尺度である温度の場合は、0℃でも温度が無くなるわけではありません。
任意に人が決めた原点です。
対して、比例尺度である身長の場合は、0㎝の場合、身長が本当にゼロ、存在しない事を指します。
このように原点に意味があるのか、任意で決められたものなのかで区別をつける事が可能となります。
比例尺度は、間隔尺度に対して0に意味がある量的変数です。
つまり「0=ない」という意味になる尺度です。
例えば、値段や身長は0のとき値段であれば無料ですし、身長であれば身長が存在しないことを意味します。
また比例尺度というように「比」、つまり何倍ということも表すことができます。
例えば、身長2mの人は1mの人の2倍と表すことができます。
先ほどの間隔尺度の西暦では、比は取れません。
西暦2000年は西暦1000年の2倍ということは言えないからです。

2つのデータの関係の強さ
量的データ:相関係数(ピアソンの積率相関係数、スピアマンの順位相関係数)
質的データ:連関係数(クラメールの連関係数)

尖度と歪度
データの偏りを表す指標
歪度(わいど)
データをヒストグラムにしたとき、その形がどれだけ正規分布より左右に偏ってるのかを示す値。
歪み=ゆがみ。どれだけ左右にゆがんでいるか。
歪度がマイナスなら右側に偏っている、プラスなら左側に偏っている
データが左に偏る→歪度が大きくなる(正の値になる)
データが左右対称→歪度は0
データが右に偏る→歪度が小さくなる(負の値になる)
尖度(せんど)
データをヒストグラムにしたとき、その形がどれだけ正規分布より尖っているかを示す値。
山なりの分布曲線の”山”の部分がどれだけとがっているかということ。
尖度がマイナスなら山がつぶれている、プラスなら突き出てとがってる
データが上に尖る(ばらつきが小さい)→尖度が大きくなる(正の値になる)
データが正規分布→歪度は0
データが扁平(ばらつきが大きい)→尖度が小さくなる(負の値になる)

単峰、多峰
ヒストグラムを描くと、分布の山が2つ以上現れる場合がある
分布の山が2つできています。このようなデータを「多峰性 (multimodal)」といい、特に分布の山が2つのものを「二峰性 (bimodal)」といいます。一方、分布の山が1つのものを「単峰性 (unimodal)」といいます。
,ヒストグラムをみて山がひとつであるか,それとも複数のピークが存在するかをまずチェックする.平均値などの代表値を考えることに実質的な意味があるのは,山がひとつである場合
二峰性のデータの場合、異なる性質の集団が混ざっている可能性があります。このデータの場合、男子生徒と女子生徒という2つの集団が混ざっているために分布の山が2つになっています。このような場合、集団を性質によって2つに分けてヒストグラムを作ると、分かりやすくなります。

日本の総人口の推移
就労人数の推移
産業別就業者数(男女計、就業者数計=6,667万人、2021年平均)
2021年時点で、
- 総人口は、約1億2,538万人
- 就労人数は、約6,667万人