Rで始める(2)探索的記述統計
探索的記述統計
探索的記述統計(descriptive statistics using Exploratory Data Analysis)とは,特定の仮説を念頭に置かずデータを探索的に記述統計を理解することである。要するに,ある理論を仮定して数値やカテゴリのデータを集計して調べるのではなく,データを一つ一つ探索しながら集計したり意味を見出したりすることを意味する。探索的に記述統計をすること,これが「探索的記述統計」である。
記述統計はデータの数を調べて意味を探ることで,その歴史はかなり古い。バイブルに出現する起源前・モーセ時代の年代や人口,ローマ時代の統計も注目されているが,具体的には17世紀に源流があるとみている。ドイツ・ヘルマンローンリング「国情論」,イギリス・ショングラント「死亡表に関する自然的及び政治的諸観察」,ウィリアムペティ「政治算術」,エドモンドハレー「死亡率推算」なごが挙げられる[1]。ビジュアル化ツールとして「度数分布表」「ヒストグラム」「平均値」「標準偏差」などが導入されているが,最近,ここにR言語が力を発揮する。
探索的な手法とは
John W. Tukeyさん[2] [3] [4] [5]が提唱したデータ解析の探索的な手法は最初の文献[2:1]が難解で,その後の文献から読者を増やしたようだ。理解を深めた関連書籍(ABC of EDA)[6]も早い時期から出版されていた。探索的手法とはデータを仮説などを前提とせず探索的に段階を踏んで調べ整理・整形し可視化をする手法のことを意味する。これらの一連の流れを辿ることで,対象とするデータをより深く理解することが可能である。このように探索的な手法でデータ理解を深めると,データの効果的なモデル化も可能である。モデル化を促進する意味でもデータを探索的に探求することが効果的である。
記述統計とは
統計学の分野は次の四つに大別される[7]。第一に,統計の歴史(history of statistics),第二に,統計の方法(descriptive statistics),第三に,統計の推定(statistical inference),第四に,これらの応用分野(application)である。記述統計はこの中の第二に当る「統計の方法」に該当し,既存のデータの集計と図化が主要項目である。
推測統計とは何か。統計学の手法と確率理論を加え「全体を把握しきれないほど大きな事象」及び「まだ起きてないが未来に起きるであろう事象」を推測することが「推測統計」だ。既存のデータを扱う記述統計と違って,まだ存在しないデータの推測と図化である。20世紀に確立された方法論として「部分から全体を推測する」ことをテーマにしているとも言う。[1:1]
統計と確率の違いは何か。統計とは「観測データの集まり」であることから「過去に起きた事象を事実に基づいて記述」したものである。記述統計の中身である。これに対して,確率とは「未来に起こり得ることを想定する記述内容」である。確率は前述の推測統計を意味する。現在から見て,過去の観測データが統計値であり,未来の想定する値が確率値と変身する。全く同じ意味の用語なのに,統計では観測値から得られる「平均値」が確率では未来に起こり得る「期待値」と変身する。[1:2]様々な用語の意味を把握しておこう。
データサイエンスとの関係
探索的なデータ分析については関連書籍[8]からその手法を具体的に学ぶことができる。この書籍で紹介するR言語を使った探索的なデータ分析は,Hadleyら[9]が定義するデータサイエンスの定義に近い。Hadleyらはデータサイエンスが「生データを理解,洞察し,そして新たな知見へと変換する刺激的な学問領域である」と定義している。つまり,データサイエンスとは「探索的記述統計」そのものを指す。
-
John W. Tukey (1977, ISBN 0-201-07616-0) Exploratory Data Analysis, Addison-Wesley Publishing Company. ↩︎ ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1983) Understanding Robust and Exploratory Data Analysis, Wiley. ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1985) Exploring Data Tables, Trends, and Shapes, Wiley. ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1991) Fundamentals of Exploratory Analysis of Variance, Wiley. ↩︎
-
Velleman P.F., and Hoaglin D.C. (1981) Application, Basics, and Computing of Exploratory Data Analysis, Duxbury Press. ↩︎
-
鳥居泰彦(2018)はじめての統計学,日本経済新聞出版社. ↩︎
-
Peter Bruce and Andrew Bruce,データサイエンスのための統計学入門,オライリー・ジャパン,2018(初版1刷) ↩︎
-
Hadley Wickham and Garrett Grolemund (2017), R for Data Science: Import, Tidy, Transform, Visualize, and Model Data ↩︎
Discussion