「完全独習 統計学入門」の知識を応用して、タカラジェンヌの身長はどれくらい珍しいかを分析した
結論
- タカラジェンヌの身長はとても珍しい
導入
こんにちは。好きなタカラジェンヌは舞空瞳さんです。ミルコです。
完全独習 統計学入門 の第4講までを読んでみました。
その書籍では題材として身長の分析をしていたのですが、ふと「タカラジェンヌってみんな高身長だと思うけど、統計的にどれくらい珍しいのだろう…?」と思ったので、分析してみることにしました。
ちなみに「タカラジェンヌ」という単語をご存じない方向けに解説しますと、タカラジェンヌとは未婚の女性だけで構成された劇団である「宝塚歌劇団」で活動している劇団員の方の呼称です。
タカラジェンヌの身長のヒストグラムを出す
分析するにはデータが必要ですよね。タカラジェンヌ全員のデータを作成するのは時間がかかるため、ここでは「宝塚歌劇団 宙(そら)組の現役の方」を対象とすることにしました。
これは「宙組ってなんとなくみんな身長高い気がするから面白い結果になりそうだな~」と思ったからです。
在団中の方のリストは公式ホームページを正とし、 2023-02-23 に私が手作業(画面の文字列をコピペ)で作成しました。
身長も公式ホームページに記載の身長を私が手作業で打ち込んだので、間違いがある可能性もあります。
出来上がったデータがこちら。
生データ(tsv)(身長でソート済)
名前 身長
美星 帆那 158
湖々 さくら 161
花宮 沙羅 161
楓姫 るる 161
葉咲 うらら 161
結沙 かのん 161
水音 志保 162
愛城 美紗 162
花菱 りず 163
舞 こころ 163
花咲 美玖 163
小春乃 さよ 164
天彩 峰里 164
有愛 きい 164
栞菜 ひまり 164
山吹 ひばり 164
渚 ゆり 164
風羽 咲季 164
華乃 みゆ 164
澄乃 紬 164
梨恋 あやめ 164
輝珠 ななせ 164
潤 花 165
春乃 さくら 165
夢風 咲也花 165
彩妃 花 165
愛未 サラ 165
花恋 こまち 165
松風 輝 167
澄風 なぎ 167
秋音 光 168
凰海 るの 168
秋奈 るい 169
優希 しおん 169
真白 悠希 169
梓 唯央 169
葵 祐稀 169
海玖里 粋 169
桜木 みなと 170
泉堂 成 170
風翔 夕 171
奈央 麗斗 171
織史 青 171
志凪 咲杜 171
寿 つかさ 172
湖風 珀 172
琉稀 みうさ 172
陽彩 風華 172
大路 りせ 172
聖 叶亜 172
芹香 斗亜 173
真名瀬 みら 173
雪輝 れんや 173
亜音 有星 173
郁 いりや 173
朝比奈 天 173
紫藤 りゅう 174
若翔 りつ 174
鳳城 のあん 174
朱 涼 174
波輝 瑛斗 174.5
真風 涼帆 175
瑠風 輝 175
鷹翔 千空 175
風色 日向 175
輝 ゆう 175
華楽 逸聖 175
嵐之 真 176
ヒストグラムって何
「ヒストグラム」とは統計の言葉で、データの分布状況を視覚的に認識するためのグラフです。
詳しくはWikipediaなどをご覧ください。
実際に出したヒストグラム
実際のヒストグラムはこちら。
順を追って解説すると、データのうち身長の最小値は 158 で、最大値は 176 でした。
158 から 176 くらいの値を適当に 3 ごとに区切って、その区域ごとの中央の値をリストアップします。
その値は「階級値」といいます。
階級値
159
162
165
168
171
174
177
その階級値までのデータがいくつあるかを「度数」に書きます。
度数は Google スプレッドシートで以下のように書きました。
=FREQUENCY('データ'!$B$2:$B$69,C5:C11)
この度数を使い、縦軸を度数・横軸を階級値として作図したものが「ヒストグラム」です。
なんとなくこれだけでも分析っぽいですね!
日本人女性の身長の分布を見てみる
さて、タカラジェンヌの身長はなんとなく分かりそうな気配があるので、比較対象である日本人女性の身長を見てみましょう。
今回は、厚生労働省の「平成30年国民健康・栄養調査報告」の第2部 身体状況調査の結果 を参照することとしました。
「第 14 表」の20歳女性の身長の平均値が 157.0 で標準偏差が 4.6 なので、この値をもとに正規分布と仮定してグラフを作図することとします。
実際に作図したグラフがこちら。
f(x)
の関数はこちら。
=NORMDIST(B6,$A$3,$B$3, FALSE)
このグラフが「平均値 157.0 、標準偏差が 4.6 の正規分布」です。
日本人女性の身長の分布とタカラジェンヌの身長の分布を比較する
日本人女性の身長の分布が分かったので、タカラジェンヌの身長と比較してみたいと思います。
先にグラフを出します。
日本人女性の標準偏差が 4.6 なので、この値ごとに平均値から +1, +2 ... と区切ってそれぞれの度数を見ていきます。
この度数から、相対度数(度数/データの数)を出します。
相対度数は全てを合計すると1になりますが、標準偏差の合計は 0.1 なため、相対度数を 10 で割ります。
相対度数/10 のリストは以下になりました。
0
0
0
0
0
0
0.008823529412
0.03235294118
0.01764705882
0.03970588235
0.001470588235
上記の値を正規分布と一緒に作図したものが、上記画像のグラフになります。
このグラフから
- 標準偏差 +2 以上のデータが多く、特殊なデータである
- さらに、標準偏差 +4 のデータにもタカラジェンヌのデータには山があり、かなり特殊なデータである
ということが分かりました。
感想
身近なデータを分析してみると、楽しいですね!
これからさらに統計を勉強していろんなデータをこねくり回してみたいと思いました。
Discussion