📈

「完全独習 統計学入門」の知識を応用して、タカラジェンヌの身長はどれくらい珍しいかを分析した

2023/02/23に公開

結論

  • タカラジェンヌの身長はとても珍しい

導入

こんにちは。好きなタカラジェンヌは舞空瞳さんです。ミルコです。

完全独習 統計学入門 の第4講までを読んでみました。
その書籍では題材として身長の分析をしていたのですが、ふと「タカラジェンヌってみんな高身長だと思うけど、統計的にどれくらい珍しいのだろう…?」と思ったので、分析してみることにしました。

ちなみに「タカラジェンヌ」という単語をご存じない方向けに解説しますと、タカラジェンヌとは未婚の女性だけで構成された劇団である「宝塚歌劇団」で活動している劇団員の方の呼称です。

タカラジェンヌの身長のヒストグラムを出す

分析するにはデータが必要ですよね。タカラジェンヌ全員のデータを作成するのは時間がかかるため、ここでは「宝塚歌劇団 宙(そら)組の現役の方」を対象とすることにしました。
これは「宙組ってなんとなくみんな身長高い気がするから面白い結果になりそうだな~」と思ったからです。

在団中の方のリストは公式ホームページを正とし、 2023-02-23 に私が手作業(画面の文字列をコピペ)で作成しました。
身長も公式ホームページに記載の身長を私が手作業で打ち込んだので、間違いがある可能性もあります。

出来上がったデータがこちら。

生データ(tsv)(身長でソート済)
名前	身長
美星 帆那	158
湖々 さくら	161
花宮 沙羅	161
楓姫 るる	161
葉咲 うらら	161
結沙 かのん	161
水音 志保	162
愛城 美紗	162
花菱 りず	163
舞 こころ	163
花咲 美玖	163
小春乃 さよ	164
天彩 峰里	164
有愛 きい	164
栞菜 ひまり	164
山吹 ひばり	164
渚 ゆり	164
風羽 咲季	164
華乃 みゆ	164
澄乃 紬	164
梨恋 あやめ	164
輝珠 ななせ	164
潤 花	165
春乃 さくら	165
夢風 咲也花	165
彩妃 花	165
愛未 サラ	165
花恋 こまち	165
松風 輝	167
澄風 なぎ	167
秋音 光	168
凰海 るの	168
秋奈 るい	169
優希 しおん	169
真白 悠希	169
梓 唯央	169
葵 祐稀	169
海玖里 粋	169
桜木 みなと	170
泉堂 成	170
風翔 夕	171
奈央 麗斗	171
織史 青	171
志凪 咲杜	171
寿 つかさ	172
湖風 珀	172
琉稀 みうさ	172
陽彩 風華	172
大路 りせ	172
聖 叶亜	172
芹香 斗亜	173
真名瀬 みら	173
雪輝 れんや	173
亜音 有星	173
郁 いりや	173
朝比奈 天	173
紫藤 りゅう	174
若翔 りつ	174
鳳城 のあん	174
朱 涼	174
波輝 瑛斗	174.5
真風 涼帆	175
瑠風 輝	175
鷹翔 千空	175
風色 日向	175
輝 ゆう	175
華楽 逸聖	175
嵐之 真	176

ヒストグラムって何

「ヒストグラム」とは統計の言葉で、データの分布状況を視覚的に認識するためのグラフです。
詳しくはWikipediaなどをご覧ください。

実際に出したヒストグラム

実際のヒストグラムはこちら。

順を追って解説すると、データのうち身長の最小値は 158 で、最大値は 176 でした。
158 から 176 くらいの値を適当に 3 ごとに区切って、その区域ごとの中央の値をリストアップします。
その値は「階級値」といいます。

階級値
159
162
165
168
171
174
177

その階級値までのデータがいくつあるかを「度数」に書きます。
度数は Google スプレッドシートで以下のように書きました。

=FREQUENCY('データ'!$B$2:$B$69,C5:C11)

この度数を使い、縦軸を度数・横軸を階級値として作図したものが「ヒストグラム」です。
なんとなくこれだけでも分析っぽいですね!

日本人女性の身長の分布を見てみる

さて、タカラジェンヌの身長はなんとなく分かりそうな気配があるので、比較対象である日本人女性の身長を見てみましょう。

今回は、厚生労働省の「平成30年国民健康・栄養調査報告」の第2部 身体状況調査の結果 を参照することとしました。

「第 14 表」の20歳女性の身長の平均値が 157.0 で標準偏差が 4.6 なので、この値をもとに正規分布と仮定してグラフを作図することとします。

実際に作図したグラフがこちら。

f(x) の関数はこちら。

=NORMDIST(B6,$A$3,$B$3, FALSE)

このグラフが「平均値 157.0 、標準偏差が 4.6 の正規分布」です。

日本人女性の身長の分布とタカラジェンヌの身長の分布を比較する

日本人女性の身長の分布が分かったので、タカラジェンヌの身長と比較してみたいと思います。

先にグラフを出します。

日本人女性の標準偏差が 4.6 なので、この値ごとに平均値から +1, +2 ... と区切ってそれぞれの度数を見ていきます。
この度数から、相対度数(度数/データの数)を出します。
相対度数は全てを合計すると1になりますが、標準偏差の合計は 0.1 なため、相対度数を 10 で割ります。
相対度数/10 のリストは以下になりました。

0
0
0
0
0
0
0.008823529412
0.03235294118
0.01764705882
0.03970588235
0.001470588235

上記の値を正規分布と一緒に作図したものが、上記画像のグラフになります。

このグラフから

  • 標準偏差 +2 以上のデータが多く、特殊なデータである
  • さらに、標準偏差 +4 のデータにもタカラジェンヌのデータには山があり、かなり特殊なデータである

ということが分かりました。

感想

身近なデータを分析してみると、楽しいですね!
これからさらに統計を勉強していろんなデータをこねくり回してみたいと思いました。

GitHubで編集を提案

Discussion