データサイエンティスト勉強
量的データと質的データについて
量的データとは
量的データとは、数値自体に意味があり加算や減算ができるデータのこと。さらに比例尺度と間隔尺度に分類できる。
比例尺度とは
長さ、絶対温度、価格など、絶対的なゼロ点を持つデータの尺度のこと。これらのデータは平均値や倍率を求めることができる。
間隔尺度とは
絶対的なゼロ点を持たない。目盛りが等間隔のもので、その間隔に意味があるもの。例として、西暦、気温(摂氏)など。
比例尺度と間隔尺度の見分け方
ゼロの値に相対的ではなく絶対的な意味があるかどうか。例えば西暦はゼロだとしても「無」にはならないが身長や速度はゼロであるときは「無」となるので比例尺度となる。
質的データ
分類や種別を区分するためのラベルとしてのデータのこと。順序尺度と名義尺度がある。
質的データは、和や差、平均値の計算に意味がない。
順序尺度とは
等級や満足度のように大小の比較のみ可能なデータのこと。順序尺度のデータは間隔が明確ではないため、通常は平均値に意味を持たない。
名義尺度とは
男性を0, 女性を1のように内容を区別するために与えられているデータのこと。等号で比較可能。
ピアソンの積率相関
- 量的データのみ計算可能であり、質的データでは計算できない
- 相関係数は、-1から1までの実数値をとる
- 相関係数が正の場合、xが大きくなるとyが大きくなる傾向があり、これを正の相関という
- 反対に、相関係数が負の場合、xが大きくなるとyが小さくなる傾向があり、これを負の相関という
- つまり、相関係数が1(正の相関)や-1(負の相関)に近ければ近いほど強い相関があるという
- 中程度の値の場合は弱い相関といい、0の場合は無相関という
- 注意点として、相関係数の絶対値が大きくても、必ずしも強い相関があるとは言い切れない事例もある。実際にデータ間の関係性を見る際は散布図でも確認するのが望ましい
確率分布
確率分布には多くの種類が存在し、それらを用いることで世の中の事象の確率を表現できる。
離散型確率分布と連続型確率分布に分けられる。
離散型確率分布
離散型確率分布は、サイコロの目や1日のメールの件数のように、有限個または無限個であっても自然数と対応づけられる離散型の確率変数が従う自然数しか取らないような試算的な確率変数の確率分布をいう。
ベルヌーイ分布
成功か失敗、表か裏、などの2種類のみの結果しか得られない試行の結果を、例えば0と1で表した確率分布のこと。コインの表が出る確率を計算することができる。このように、試行結果が2通りしかない結果をベルヌーイ試行という。
二項分布
互いに独立したベルヌーイ試行をn回行ったときに、コインの表が出るといった考えている事象がx回起こる確率を表現した確率分布である。具体的には、コインをn回投げたときに表がx回出る確率を計算することができる。