📕

記述統計学について(基礎)

2023/06/02に公開

記述統計学を学ぶ

こんにちは!わいわわです!
今回からは数学の知見の学習に入っていきます。
大学は経済を先行していたため、少し不安がありますが、、
AIエンジニアになるには欠かせない知識!がんばります!

記述統計学

記述統計

収集したデータの特徴をつかんだり、分かりやすく整理することを目的とする
記述統計ではデータの分布の特徴を要約して示す数値として基本統計量が用いられる
基本統計量は、その内容によって代表値と散布度に分類される

  • 代表値...データ全体を表す値:最小値、最大値、中央値、最頻値、平均値
  • 散布図...データの散らばりを能わす値:範囲、分散、標準偏差、歪度、尖度など

代表値

これはあるwebサイトにおける1か月間のアクセス状況をまとめたデータです。
day,accesses
1,354
2,351
3,344
4,362
5,327
6,349
7,361
8,360
9,333
10,366...
省略していますが30日分、カンマ区切りのデータがあります。

pandasで出力

pandasを使用して、データを出力します。

import pandas as pd
df = pd.read_csv(
    'access.csv',
    index_col=0)
df.head()

!出力結果!

csvファイルを読み込み、index_colで見出し列のインデックス0を指定。
df.head()でデータの冒頭の5つを出力しています!
カンマ区切りのデータでも、pandasだとキレイに表になりますね。

平均

平均はデータの全ての値を合計し、データの数で割った値です。
平均値はmean()関数を使用することで求めることができます。

data = df['accesses'].values
mean = data.sum() / len(data)
mean
import numpy as np
np.mean(data)

出力結果→347.3666666667
上記2つは同じ出力結果です。
data.sum() / len(data) = mean()
mean()関数に引数を入力すると、配列要素の平均値を求めます。

最大値、最小値

データの中で最も小さな値を最小値、最も大きな値は最大値です。
numpyのmin()、max()で最大値を求めることができます。

np.min(data)

出力結果→308

np.max(data)

出力結果→387

中央値

データ全体の中心に存在する値のことを中央値と呼びます。
データを順に並べてちょうど真ん中にあるデータのことです。
例)9個のデータを値の小さい順に並べる
1 2 3 4 5 6 7 8 9
下限から数えても、上限から数えても5番目、中央に位置するので
この5がこのデータの中央値です。

また、データの数が偶数の場合はデータ全体の真ん中にある2つのデータの平均を中央値とします。
例)10個のデータを値の小さな順に並べる
15 20 25 30 40 50 55 60 65 75
左から数えて5番目の40 右から数えて5番目の50
この2つのデータの平均が中央値→「45」

mediam()関数…中央値を求めることができる関数

np.mediam(data)

出力結果→349.0

mediam()関数を使えば、一発ですね!

散布度(分散と標準偏差)

分散

分散はデータの散らばり具合を表します。
偏差...「データ - 平均」で求めた、データと平均の差のこと
偏差平方...偏差を2乗した値です。平均を求めるときにはこの偏差平方を使う
分散...偏差平方の合計 ÷ データの個数、つまり偏差平方の平均値
分散は平均値の周りにデータが集まっているほど小さな値になり、
平均から離れているデータが多いほど大きい値になります。

この分散はvar()関数を使用して求めることができます。

np.var(data)

出力結果→319.16555555555555

標準偏差

分散を求めるときに偏差を2乗して偏差平方にしたため単位が変わってしまっています。
分散は「平均の周りのバラツキ具合をきちんと表す」には都合がいいですが
値そのものが大きく、平均からの離れ具合が直感的にわかりづらいという問題があります。

そこで分散の平方根をもとめることで、単位を元のデータと揃えたものが標準偏差です。
「SD」とも略され、ある値が平均から「1SD以内か」「1SD以上か」「2SD以上か」といった見方です。
標準偏差はstd()関数で求めることができます。

np.var(data)

出力結果→17.865205164104765
この標準偏差を2乗したら分散になりますね!

だいたいのデータが17.865...くらい離れている位置にある、というのは
私から見たら「ちゃんとまとまってる」のですが、実際だとどうなのでしょうかね、、

所感

今日は記述統計学の基礎部分をまとめました。
問題はこの値をうまく業務で使えるか、だと思うので
使用のイメージをもちつつ、学習を続けていきます!

Discussion