記述統計をまとめたい①
本記事について
心理学統計法の本を(一旦)読み終わったので,知識の整理のために筆をとりました.
今回はタイトルの通り,記述統計を自分なりにまとめたつもりです.
↑
(追記)思ったよりも書くのに時間がかかっているので記事を分割します.予定では①でデータの種類について,②で要約統計量について,③で回帰直線と効果量について取り上げるつもりです.
なお,筆者自身は初学者&ブログ初心者(初投稿)でございます.
間違い等がみられた際にはコメントにて指摘いただければ幸いです.
(無論,その他感想・アドバイス等も大歓迎です.お待ちしております.)
はじめに…記述統計学ってなんやねん
「統計」という単語を聞いたときにどのようなことを考えるでしょうか?
- 雨の日の売れ筋商品について調べる
- テレビの視聴率を推測する
- 学年の期末得点から生徒ごとの偏差値を調べる
- 選挙の出口調査から当選確実な候補者を推測する
これら例に示した統計の営みは,大まかに記述統計学と推測統計学の2つにわけることができます.
記述統計学
記述統計学は「今手元にあるデータ」を人間が理解しやすい形に加工する術を取り扱っています.先ほどの例だと以下の例が当てはまります.
- 雨の日の売れ筋商品について調べる
- 学年の期末得点から生徒ごとの偏差値を調べる
何かしらの無加工のデータ(多くは数字と文字の羅列)を眺めてデータの関係や意味を即座に理解できる人間はほとんどいません.
そこで,グラフ・表・データの特徴を端的に表す数値を利用して簡潔にデータを理解しようとする記述統計学の枠組みが必要になってきます.
推測統計学
推測統計学は知りたい対象である「母集団」を母集団から取り出した「標本」を用いて予測する術を取り扱っています.先ほどの例だと以下の例が当てはまります.
- テレビの視聴率を推測する
- 選挙の出口調査から当選確実な候補者を推測する
テレビの視聴率の例だと母集団が「番組が配信されている全てのテレビ」,標本が「視聴率を測定する機械を設置しているテレビ」になります.
本記事では推測統計学の予測する術についてこれ以上詳しい説明はしませんが,気になる方は推測統計学について書かれた他の方の記事を参照してください.
データの種類とは?
記述統計がどのような営みなのか理解したうえで,分析前にもう一つ押さえなくてはならないポイントがあります.それは,「データがどのような値を扱っているか」です.データの値はある一定の基準をもとに4種類に分けられることが知られています.
名義尺度
名義尺度水準のデータはそれ自体に他と区別すること以外の役割がないものを指します.仮に数値を用いていたとしてもラベルのような役割しかしていなければ,それは名義尺度になります.無論,データ同士の四則計算はできません.
例:正解不正解を(0,1)で示したもの,学籍番号や出席番号,被験者IDなど
順序尺度
順序尺度水準のデータは名義尺度水準の前提に加えてデータに何らかの順序がみられるものを指します.なお,目盛りの等間隔性はありません.具体例で詳しく解説します.
下の例に示している徒競走の順位を取り上げると,1位と2位では1位の方が難しく,2位と3位では2位の方が難しいことがわかります.しかし,データが等間隔な目盛りにないので,1位+2位=3位などということは起こりえません.
例からわかる通り,順序尺度も基本的にデータ同士の四則計算はできません.
例:徒競走の順位(1位>2位>3位>…),リッカート尺度(1.まったく当てはまらない<…<5.非常に当てはまる)など
間隔尺度
間隔尺度水準のデータは順序尺度の前提に加えて目盛りの等間隔性を担保したものになります.一方,値が0の時「ない」ことを示す原点がないことで,四則計算のうち足し算と引き算しかすることができません.
例:摂氏(1気圧における水の凝固点を0℃,沸点を100℃とし,100等分している)など
比例尺度
比例尺度水準のデータは原点0を持ち,かつ目盛りが等間隔です.比例尺度のポイントは原点0を持つことで四則計算がすべて可能になる点にあり,間隔尺度時点で可能だった足し算・引き算に加えて掛け算や割り算も行うことができます.
例:長さ(m),重さ(g),時間(s),個数(個)など
関連記事
絶賛執筆中
Discussion