Rで始めるデータサイエンス(1)
本記事ではRで始めるデータサイエンスについて,関連するデータサイエンティストや統計学の基本的な概念を参考書籍[1][2][3][4]をもとにしながら,整理しておきたい。
データサイエンスとは
データサイエンスの言葉[5]が文献に使われ始めたのは1974年の頃[6]である。当時,データサイエンスのことを「データを扱う科学,データの変換・保管・表現形式の決定のための原理」を考えることだと思っていた。しかし,今や少し古く感じるところがある。当時の定義[6:1]はデータマネジメントやデータエンジニアリングに近い。今の時代に見合うデータサイエンスの定義は何だろうか。統計学者ら[7]は次のように定義している。「データサイエンスは,統計学,データ分析,およびそれらを統合した概念であるだけでなく,その結果をも含む概念である」と。さらに,その目的は「複雑な自然的,人間的,社会的現象の特徴や隠れた構造を,確立された伝統的理論や手法とは異なる観点から,データによって明らかにすること」としている。
データサイエンス
データサイエンスとは,情報化社会に伴い自然や社会現象を示す様々な分野から生産されるビックデータから,数学や統計学の観点からデータが示す自然や社会現象を明らかにする学問である。
データサイエンティストとは
データサイエンティストら[4:1]は「データサイエンティストは数学や統計の知識を持ち,それを実装できるエンジニアリングの能力の持っている人であり,この能力を使ってビジネス課題を解決するコンサルティング能力を持っている人」である,と定義している。さらに,上記の能力の一つでも欠けている人はデータサイエンティストではないと断言する。
データサイエンティスト
データサイエンティストは,数学や統計の知識を持ちつつ,自然や社会現象の課題解決に挑むビジネスマインドの持ち主である。
統計学とは
統計学は様々なデータの科学的な分析法の一種[1:1]である。特に,大量のデータの中に存在する法則性(規則性)を扱う分析方法である。また,統計学は大量のデータを観察する中で現れるのはデータの不確実性を認識するもので,この不確実性の変動の中には確率法則があり,それを見つける学問[2:1]でもある。更に,統計学は集団の現象を数量的に観察することにより,その集団が持つ性質や規則性を見つけ出す方法論の研究[3:1]でもある。
統計学
統計学とは,大量の集団データから見えるよくわからないデータの変動から,ある規則性を数量的に見つけ出し,科学的な分析に役に立つための手法や方法を整理しておいた学問である。また,大量の集団データを見つめつつ,データの変動からの規則性を手法や方法を整理していく統計学はデータサイエンティストが備えるべき基礎の数学と共に必須項目の一つである。
-
有賀友紀,大橋俊介(2019)RとPythonで学ぶでーたサイエンス&機械学習(実践的),マイナビ ↩︎
-
Peter Naur(1974)Concise Survey of Computer Method, Petrocelli Books. (http://www.naur.com/Conc.Surv.html) ↩︎ ↩︎
-
C. Hayashi(1998)What is Data Science? Fundamental Concepts and Heuristic Example. In: C. Hayashi, K. Yamaji, HH. Bock, N. Ohsumi, Y. Tanaka, Y. Baba (eds) Data Science, Classification, and Related Methods, Studies in Classification, Data Analysis, and Knowledge Organization, Springer, Tokyo ↩︎
Discussion