Rで始める探索的記述統計(2)
探索的記述統計とは
探索的記述統計(descriptive statistics using Exploratory Data Analysis)とは,探索的な方法で記述統計を理解して学ぶことを指す。記述統計とは何らかの形で得られたデータを集計するだけでなく,集計したデータを見える化しながら集計内容をわかりやすく表現しつつ理解していくことである。これを探索的な手法を取り入れて行うこと,これが「探索的記述統計」である。
探索的な手法とは
John W. Tukeyさん[1] [2] [3] [4]が提唱したデータ解析の探索的な手法は最初の参考文献[1:1]が難解で,その後の出版文献から読者を増やした。その間も,これらの理解を深めていく上で理解しやすい書籍(ABC of EDA)[5]が早い時期から出版されていた。これだけに注目を集めていた「探索的手法」はデータを探索的に整理したり整形し可視化をすることを意味する。これらの一連の流れを辿ることで,対象とするデータをより深く理解することが可能となる。更には,このようなデータの理解が深まることにより,データの効果的なモデル化が可能となる。また,モデル化の促進するための一連のデータ探求が深まっていく。
記述統計とは
記述統計とは統計学の分野は四つに大別される[6]中の一つである。統計の歴史を調べるもの(history of statistics),統計の方法論を扱うもの(descriptive statistics),統計の方法論では解けない推定によるもの(statistical inference),最後に,これら以外の応用分野(application)である。記述統計とはこの中でも「統計の方法論を扱うもの」にあたる。
データサイエンスとの関係
探索的なデータ分析については関連書籍[7]からその手法を具体的に学ぶことができるが,翻訳文が難解。Hadleyら[8]は「データサイエンス」のことを「生データを理解,洞察し,そして新たな知見へと変換する刺激的な学問技術分野である」と定義している。つまり,データサイエンスとはこの「探索的記述統計」そのものを指す。
-
John W. Tukey (1977, ISBN 0-201-07616-0) Exploratory Data Analysis, Addison-Wesley Publishing Company. ↩︎ ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1983) Understanding Robust and Exploratory Data Analysis, Wiley. ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1985) Exploring Data Tables, Trends, and Shapes, Wiley. ↩︎
-
Hoaglin D.C., F. Mosteller, and John W. Tukey (1991) Fundamentals of Exploratory Analysis of Variance, Wiley. ↩︎
-
Velleman P.F., and Hoaglin D.C. (1981) Application, Basics, and Computing of Exploratory Data Analysis, Duxbury Press. ↩︎
-
鳥居泰彦(2018)はじめての統計学,日本経済新聞出版社. ↩︎
-
Peter Bruce and Andrew Bruce,データサイエンスのための統計学入門,オライリー・ジャパン,2018(初版1刷) ↩︎
-
Hadley Wickham and Garrett Grolemund (2017), R for Data Science: Import, Tidy, Transform, Visualize, and Model Data ↩︎
Discussion