🐹

Rで始める(2)探索的記述統計

2024/12/15に公開

探索的記述統計

探索的記述統計(descriptive statistics using Exploratory Data Analysis)とは,特定の仮説を念頭に置かずデータを探索的に記述統計を理解することである。記述統計とは何らかの形で得られたデータを集計し,集計したデータを見える化しながら集計内容をわかりやすく表現・理解していくことである。これを探索的な手法を取り入れて行うこと,これが「探索的記述統計」である。

記述統計の歴史は古く,バイブルに出現する起源前・モーセ時代の年代や人口,ローマ時代の統計も注目されているが,具体的には17世紀に源流があるとみている。ドイツ・ヘルマンローンリング「国情論」,イギリス・ショングラント「死亡表に関する自然的及び政治的諸観察」,ウィリアムペティ「政治算術」,エドモンドハレー「死亡率推算」なごが挙げられる[1]ビジュアル化ツールとして「度数分布表」「ヒストグラム」「平均値」「標準偏差」などが導入されているが,ここにR言語が力を発揮する。

探索的な手法とは

John W. Tukeyさん[2] [3] [4] [5]が提唱したデータ解析の探索的な手法は最初の文献[2:1]が難解で,その後の文献から読者を増やしたようだ。理解を深めた関連書籍(ABC of EDA)[6]も早い時期から出版されていた。探索的手法とはデータを仮説などを前提とせず探索的に段階を踏んで調べ整理・整形し可視化をする手法のことを意味する。これらの一連の流れを辿ることで,対象とするデータをより深く理解することが可能であるとしている。更には,このような探索的な手法でデータ理解を深めると,データの効果的なモデル化も可能である。モデル化を促進するためにも一連のデータを探索的に探求することが効果的であるとしている。

記述統計とは

記述統計とは統計学の一分野で,四つに大別される[7]統計学の中の一分野である。第一に,統計の歴史を調べるもの(history of statistics),第二に,統計の方法論を扱うもの(descriptive statistics),第三に,統計の方法論では解けない推定によるもの(statistical inference),最後の第四に,これら以外の応用分野(application)である。記述統計はこの中の第二に当る「統計の方法論を扱うもの」に該当する。

推測統計とは何か。統計学の手法と確率理論を加え「全体を把握しきれないほど大きな事象」及び「まだ起きてないが未来に起きるであろう事象」を推測することが「推測統計」だ。20世紀に確立された方法論として「部分から全体を推測する」ことをテーマにしている。[1:1]

統計と確率の違いは何か。統計とは「観測データの集まり」であることから「過去に起きた事象を事実に基づいて記述」したものである。これに対して,確率とは「未来に起こり得ることを想定する記述内容」である。現在から見て,過去の観測データが統計値であり,未来の想定する値が確率値と変身する。全く同じ意味の用語なのに,統計では観測値から得られる「平均値」が確率では未来に起こり得る「期待値」と変身する。[1:2]

データサイエンスとの関係

探索的なデータ分析については関連書籍[8]からその手法を具体的に学ぶことができる。この書籍で紹介するR言語を使った探索的なデータ分析は,Hadleyら[9]が定義するデータサイエンスの定義に近い。Hadleyらはデータサイエンスが「生データを理解,洞察し,そして新たな知見へと変換する刺激的な学問領域である」と定義している。つまり,データサイエンスとは「探索的記述統計」そのものを指す。

脚注
  1. 小島寛之(2006, 第1刷)統計学入門,ダイアモンド社. ↩︎ ↩︎ ↩︎

  2. John W. Tukey (1977, ISBN 0-201-07616-0) Exploratory Data Analysis, Addison-Wesley Publishing Company. ↩︎ ↩︎

  3. Hoaglin D.C., F. Mosteller, and John W. Tukey (1983) Understanding Robust and Exploratory Data Analysis, Wiley. ↩︎

  4. Hoaglin D.C., F. Mosteller, and John W. Tukey (1985) Exploring Data Tables, Trends, and Shapes, Wiley. ↩︎

  5. Hoaglin D.C., F. Mosteller, and John W. Tukey (1991) Fundamentals of Exploratory Analysis of Variance, Wiley. ↩︎

  6. Velleman P.F., and Hoaglin D.C. (1981) Application, Basics, and Computing of Exploratory Data Analysis, Duxbury Press. ↩︎

  7. 鳥居泰彦(2018)はじめての統計学,日本経済新聞出版社. ↩︎

  8. Peter Bruce and Andrew Bruce,データサイエンスのための統計学入門,オライリー・ジャパン,2018(初版1刷) ↩︎

  9. Hadley Wickham and Garrett Grolemund (2017), R for Data Science: Import, Tidy, Transform, Visualize, and Model Data ↩︎

Discussion