データの種類について
📘はじめに
データを計算するときに大事なのはそのデータがどんな種類に分類されるのかということです。
今回はデータと呼べる数値たちの分類の仕方についてまとめました。
本記事では、阿部圭一さんの著書
『よくわかるデータリテラシー ――データサイエンスの基本』
を参考にしました。
ブログは全くの初めてですので、なにか問題や改善点がありましたらお教えいただけると幸いです。
📗主流の分類の仕方(Stevensの尺度水準)
一般にデータと呼べる数値は次の4つの種類に分けることができます。
1.名義尺度 2.順序尺度 3.間隔尺度 4.比率尺度
この分類の仕方はStevensの尺度水準といいます。
以下でそれぞれの尺度の説明に移ろうと思います。
1. 名義尺度とは
例1. ISO 3166-1 numeric (国連統計局などで使用)
⇒ 日本: 392, アメリカ: 840, イギリス: 250
例2. アンケートでよくあるやつ
「あなたが一番好きな料理は?
1.カレー 2.寿司 3.ラーメン 4.ステーキ...」
このように値が等しいか等しくないかだけに意味がある数値を名義尺度 (nominal scale) といいます。
例えば(例1)では国の種類を便宜的に数値に当てはめているだけ、料理に適当な数値を当てはめているだけです。
ゆえに、これらの数字を足したり引いたりして比較することに意味はないといえます。
2. 順序尺度とは
例1. 漫画の人気キャラクターランキング ⇒ 1位,2位,3位...
例2. アンケートでよくあるやつ
「この映画の感想を教えてください。
1.とてもよかった 2.結構よかった 3.普通 4.あまりよくなかった 5.つまらなかった」
このように、小さい順とか大きい順とか値の大小関係に意味がある数値を、順序尺度 (ordinal scale) といいます。
順序尺度にはある性質があります。隣り合うデータの差異は一定ではない、あるいはわからないということです。(人気キャラクターの「1位と2位の票数の差」と「2位と3位の票数の差」は等しいとは言えないわけです。)
3. 間隔尺度とは
隣り合う値の間隔が一定であるものを間隔尺度 (interval scale) といいます。
例1. 時刻 ⇒ 9:00, 10:00, 11:30,...
例2. 学年ごとの年齢 ⇒ 小学2年生: 8歳, 小学3年生: 9歳,...
(8月生まれとか9月生まれとかで必ずしも2年生が3年生の一歳年下ではないですが、
これは近似的に間隔尺度とみなされます)
間隔尺度の性質として、「引き算」や「平均をとる」という操作は 意味を持つということが言えます。
そして次に説明される比率尺度との違いとして、間隔尺度は比率や割合については 意味を持たないということがあげられます。
4. 比率尺度とは
間隔尺度と違って、データどうしの比率や割合が意味を持つ尺度のことを比率尺度 (ratio scale) といいます。
例1. 速さ、距離、移動時間など (時刻と時間は違う概念としてます)
例2. 貯金額、労働時間など
先ほどの間隔尺度の例と比較してみると、「時刻18:00は時刻9:00の2倍である」とは言えませんが、「移動時間50分は移動時間25分の2倍である」といえるわけです。
この比率尺度を比率尺度たらしめている特徴は、絶対的な0点があるということです。(貯金0円みたいな概念が成立するということです。)
📗1つ上の分類の仕方について
今までに紹介したStevensの尺度水準を上位レベルで分類するときによく出てくる概念があります。
質的データ (qualitative data) と量的データ (quantitative data) です。以下で軽く説明しますが、ほとんど上記の分類の仕方の再利用になっています。
1. 質的データとは
質的データとは、性質や種類を表すデータのことを言います。数値を計算しても意味がないものです。
名義尺度と順序尺度がこれに該当します。
2. 量的データとは
何らかの量をもっていて、計算が意味を持つデータのことを言います。
間隔尺度と比率尺度がこれに該当します。
📗別視点の分類について
今までで説明した分類の仕方とは少し変わった視点での分類の仕方を紹介します。
離散的データ(discrete data) と連続的データ(continuous data) と呼ばれる概念です。
1. 離散的データとは
不連続な数値しか取りえないデータのことです。
名義尺度と順序尺度はいつでも離散的データといえるでしょう。
2. 連続的データとは
連続的に値をとることができて、理論的には間のどんな数値をとることもできるデータのことです。
質的データ、量的データのときの話とは異なり、今回は間隔尺度と比率尺度ならいつでも連続的データと言えるわけではないことに注意しましょう。
例えば間隔尺度について、日付のデータは、9/1 → 9/2のように離散的な値をとります。したがって離散的データに分類されます。
一方で時刻のデータ(9:00など)はとろうと思えばいくらでも細かく集計できるわけです。(9:00:00.00000000...みたいなことです。)つまりこちらは連続的データに分類されるわけです。
比率尺度について、貯金額のデータは大体の集計の仕方では、円より細かい値の取り方はしませんので、離散的データに分類されることが大半でしょう。
しかし、桁が非常に大きくなればそれは近似的に連続的データとみなせるようになりますし、実際みなすことはあります。
📘4つの尺度(Stevensの尺度水準)の関係まとめ
それぞれの分類の仕方について表にまとめようと思いましたが、どうやっても著作権に引っかかりそうなので止めます。
今回紹介した尺度は、名義尺度 → 順序尺度 → 間隔尺度 → 比率尺度の順番に意味を持つ計算の種類が増えていきます。
個人的に重要な性質として以下の事柄があります。
間隔尺度や比率尺度の大小比較によってランキングなどの順序尺度を作ることができます。
逆の操作は成立しません。
つまり、必要に応じてデータを計算して簡潔なデータに変換することができるわけです。
しかし、これは同時に情報が減ることを意味していますからその点は覚えておきましょう。
📚 参考資料:阿部圭一『よくわかるデータリテラシー――データサイエンスの基本』(丸善出版, 2020)
Discussion