データを見てみよう【統計学の利用禁止】
はじめまして
株式会社インテージの桝田です。
いわゆるデータサイエンティストとして、普段は広告効果測定や時系列データ分析の業務を行っています。
業務外では統計学・マーケティングサイエンスの研究活動も行っています。(牛の歩みですが)
データ分析について考える
時は2014年! 一般社団法人データサイエンティスト協会は、データサイエンティストに求められるスキルセットとして「ビジネス力」「データエンジニアリング力」「データサイエンス力」の三つを定義しました。
それから現在、10年以上が経過しました。AIの台頭など我々を取り巻く環境は大きく変化したものの、これら三つのスキルが重要であるというのは疑いのない事実かと思います。
(なお、2025年12月にスキルチェックリストver.6が公開されています)
私は大学・大学院時代にベイズ統計学を研究しており、逆にIT周りは詳しくありませんでした。
しかし当然ながら、入社してからはエンジニアリング面やビジネス面の勉強・訓練も行っております。
データサイエンス力……って何のこと?
ところで、統計学に詳しければデータサイエンス力は高いのでしょうか? あるいは機械学習を活用できればデータサイエンス力は高いのでしょうか?
「データを分析する」という行為は多面的なものですが、一つ重要な事実が存在します。
「データ分析」とは、「データ」×「分析手法」の組み合わせ、ということです。
いくら高度な分析手法を利用しても、データそのものがダメであれば有用な示唆は出ません。
逆に高品質なデータを持っていても、分析手法が適切でなければ、やはり妥当な結果は出せません。
私の個人的な考えですが……
良いデータサイエンティストとは、分析手法の数理に詳しいのは当然として、データそのものにも深い眼差しを向けるものかと思います。
言うなれば「データ力」を高めることが大事だと思っています。
データサイエンティストが使う分析手法は、モデリングや分類器の作成など、統計学・MLの毛色が強いです。作成した数理モデルが完璧なものであることは当然なく、場合によっては現実離れした結果になってしまうこともあります。
統計学・MLを用いて得られた分析結果が実データから乖離することを防ぐためにも、データそのものに対する傾向・数値感覚を押さえておくことが重要ですね。
というわけで、この記事では「データ力」を高める一つの方法として、「統計学禁止」のデータ分析の話をしてみます。
《素朴な分析》でデータを見よう
想像してみてください。印刷された数表を紙で渡され、「データを読んでください」と言われたとします。……どうやって分析をスタートしますか?
例として、社会生活基本調査[1]から「一日における家事の時間」のデータを使いましょう。
Question1. 一日あたり「家事」に使う平均時間は?
データを見る前にまず考えましょう。日本人(男女・15歳以上)は、一日1440分のうち、平均で何分を家事に使いますか?
Answer1.
以下が、日本人の平均的な「家事時間(分)」の推移です。出典
| 家事時間(分) | |
|---|---|
| 平成3年 (1991) | 93 |
| 平成8年 (1996) | 91 |
| 平成13年 (2001) | 90 |
| 平成18年 (2006) | 92 |
| 平成23年 (2011) | 91 |
| 平成28年 (2016) | 87 |
| 令和3年 (2021) | 91 |
一日あたり90分前後で推移していますね。したがって、答えは「90分」程度です。
データを注意深く見ると、若干の減少トレンドが存在すると確認できます。
また、2016年⇒2021年で家事時間が少し増えていることも分かります。これは、コロナ禍によって在宅状態が促進されたことが主要因だと想像できます。
さて、私たちは今「データの規模感」「データの推移」を確認しましたね。
もっと具体的に言うと、日本人全体の家事時間の推移を、平均を通して確認しました。
データの見方(1)【縦の分析】:データ全体の推移を確認!
まず最初に、データの全体感を把握することが望ましいです。時系列のデータであれば、推移を確認する【縦の分析】を行いましょう。
(※時間の前後比較を【縦の分析】と呼ぶことにします)
例えば特定ブランドの売上を確認するとき、その前にマーケット全体の拡大・縮小の傾向はどうなのか、全体感を把握することから始める……等です。
NEXT:
【縦の分析】で全体傾向を把握したあとは、直近のデータだけに注目してブレイクダウン……【横の分析】を行います。
今回の例であれば、「年齢別で見たらどうだろう?」「男女別で見たらどうだろう?」など、いくつか方針は存在します。次はとりあえず、男女別で見てみましょうか。
Question2. 男女別で、一日あたり「家事」に使う時間はどう違うか?
データを見る前にまず考えましょう。男性・女性それぞれ、日本人(15歳以上)は一日1440分のうち、平均で何分を家事に使いますか?
直近の調査(令和3年・2021年)のものだけ確認してみます。
Answer2.
以下が、2021年調査における、男女の平均的な「家事時間(分)」です。出典
| 男性 | 女性 | |
|---|---|---|
| 令和3年 (2021) | 26 | 153 |
男性が25分程度、女性が150分程度と分かりました。随分な差ですね!
男女人口はおおよそ5:5ですから、この二つの平均を取ると90分くらいというのも確認できます。先ほど見た通りですね。
このことから想像するに、「家事時間」のデータは男女で大きな分布の違いが存在しており、その平均をとったデータ(90分)には、実のところ大した意味がなさそうです。
データの見方(2)【横の分析】:データを分割して、属性ごとの違いを確認!
データの全体傾向を確認した後は、興味のある属性に応じてデータを分割・比較しましょう。
(※属性ごとのデータ比較を【横の分析】と呼ぶことにします)
それぞれの属性について、いきなり時系列の傾向を確認するのではなく、まずは特定の時期・時間のデータだけで確認することをお勧めします。
……いきなり大量のデータを見ても、頭に入りませんよね。(私だけ?)
NEXT:
【縦の分析】で全体傾向を把握し、【横の分析】で属性ごとの違いを確認しました。
次の方針は大きく2つあります。
(A)【縦×横の分析】をする:
今回の例では、男女別の家事時間の推移を確認します。(Question3で確認)
(B)【横×横の分析】をする:
更に細かく分割してみましょう。今回の例では、男女×年齢別の家事時間を確認します。(Question4.で確認)
Question3. 男女別の「家事」時間はどう推移している?
データを見る前にまず考えましょう。男性・女性それぞれ、日本人(15歳以上)の家事時間は増えていますか? 減っていますか?
全体傾向を確認したときは微減少といった調子でしたが、果たして男女別ではどうでしょうか?
Answer3.
以下が、男女の平均的な「家事時間(分)」の推移です。出典
| 男性 | 女性 | |
|---|---|---|
| 平成3年 (1991) | 11 | 172 |
| 平成8年 (1996) | 11 | 167 |
| 平成13年 (2001) | 14 | 162 |
| 平成18年 (2006) | 17 | 161 |
| 平成23年 (2011) | 19 | 160 |
| 平成28年 (2016) | 20 | 151 |
| 令和3年 (2021) | 26 | 153 |
男女で大きく傾向が異なりますね!
男性の家事時間は、この30年で15分ほど増えています。
一方、女性の家事時間は、この30年で20分ほど減っています。
考えられる要因として、例えばジェンダーレス社会の進行によって家事分担が進み、男性の家事時間が増えた・女性の家事時間が減った、などがありえそうです。
便利な家事アイテムの普及によって、トータルで見れば家事時間は減ったのだ……という解釈ができそうでしょうか?
また、外食文化の定着によって炊事時間が減っているのではないかとも予想できます。
Question4. 男女・年齢別の「家事」時間はどのような構造か?
データを見る前にまず考えましょう。男性・女性それぞれ、年齢別で考えた時に、平均で何分を家事に使いますか?
年齢が上がるほど家事時間は増えるでしょうか? 家事に費やしている時間が最も多いのは何歳でしょうか?
Answer4.
以下が、2021年調査における、男女・年齢別の平均的な「家事時間(分)」です。出典
| 男性 | 女性 | |
|---|---|---|
| 10~14歳 | 2 | 3 |
| 15~19歳 | 5 | 7 |
| 20~24歳 | 10 | 23 |
| 25~29歳 | 15 | 60 |
| 30~34歳 | 22 | 105 |
| 35~39歳 | 20 | 147 |
| 40~44歳 | 21 | 172 |
| 45~49歳 | 22 | 189 |
| 50~54歳 | 22 | 187 |
| 55~59歳 | 23 | 189 |
| 60~64歳 | 27 | 201 |
| 65~69歳 | 35 | 212 |
| 70~74歳 | 42 | 211 |
| 75~79歳 | 47 | 193 |
| 80~84歳 | 44 | 166 |
| 85歳以上 | 46 | 103 |
家事時間の長さが男女で大きく違うのはQuestion2.で確認した通りですが、
年齢別の家事時間の構造についても、男女差が存在しています。
男性の家事時間は30代以降ずっと横ばいで、これは高齢者になるまで続きます。高齢者になってからは家事時間が増えていきますね。30-50代の現役世代では一般労働者層が多いため労働時間が固定され、結果として家事に回せる時間に限界が存在する……それが22分という数字に反映されていそうです。高齢者になってからは一人暮らしの率が上がる・労働スタイルの変化などが要因となり、家事時間が伸びるのでしょう。
一方で、女性の家事時間は年齢が上がるにつれて伸びていき、これは後期高齢者の年齢水準まで続きます。婚姻にともなう生活スタイル・労働スタイルの変化が主要因として考えられそうです。
まとめ
この記事では社会生活基本調査のデータを例にとり、《素朴な分析》を行いました。
全体推移を確認する【縦の分析】と、データを分割して比較する【横の分析】を導入し、単にそれらを組み合わせるだけでも様々な知見を得られました。
データを見て分かったこと:
・日本人全体の家事時間は平均90分程度。しかし男女差が大きく、男性は平均で25分、女性は平均で150分程度である。
・男性の家事時間は上昇傾向、女性の家事時間は減少傾向であり、男女計では微減している。
・年齢別で見た時も、男女の傾向は異なる。
男性は30-50代で横ばい、約22分。高齢者になると伸びて、40分前後。
女性は70歳まで伸び続け、20代は50分前後、30代は100-150分。 40-50代は200分弱、60代は200分強。
こうした数値感を事前に把握しておくことで、データサイエンス的な高度な分析手法で得られた結果に対し、その妥当性を確認・補強できます。
Discussion