Rで始める(1)データサイエンス
本記事ではRで始めるデータサイエンスについて,関連するデータサイエンティストや統計学の基本的な概念を参考書籍[1][2][3][4]をもとにしながら,整理しておきたい。
まず,データと情報の違いを
データは単なる事実や数字,情報の断片であり,情報そのものではない。データが意味を持ち有用となるように処理,解釈,整理,構造化などを経て提示されると,そのデータは情報と呼ばれる。情報はデータにコンテキスト(Context:文脈,前後関係,事情,背景,状況など)を提供する[5]。つまり,データにコンテキストを加えるデータサイエンス技術が加わりデータは情報に変身する。統計学者のNate Silverは「数字はそれ自体何かを語ることはない。私たちが代わりに語る。私たちが数字に意味を与えるのだ。」という[6]。
データサイエンスとは
データサイエンスの言葉[7]が文献に使われ始めたのは1974年の頃[8]である。当時,データサイエンスのことを「データを扱う科学,データの変換・保管・表現形式の決定のための原理」を考えることだと思っていた。しかし,当時の定義[8:1]はデータマネジメントやデータエンジニアリングに近いだろう。データが蔓延する今の時代に見合うデータサイエンスの定義は何だろうか。統計学者ら[9]は次のように定義しているようだ。「データサイエンスは,統計学,データ分析,およびそれらを統合した概念であるだけでなく,その結果をも含む概念である」と。さらに,その目的は「複雑な自然的,人間的,社会的現象の特徴や隠れた構造を,確立された伝統的理論や手法とは異なる観点から,データによって明らかにすること」だとしている。つまり,データにコンテキストを加えることがデータサイエンスである。
なぜ,データサイエンスがこれだけ求められるようになったのか。それは単なる事実や数字羅列のデータが増えたためで,そのデータに意味があることに気づき始めたためである。
データサイエンス
データサイエンスとは,データに意味を加えることを意味し,情報化社会に伴い自然や社会現象を示す様々な分野から生産されるビックデータから,数学や統計学の観点からデータが示す自然や社会現象を明らかにする学問である。
データサイエンティストとは
データサイエンティストら[4:1]は上記のデータサイエンスの作業を行う人である。つまり「データサイエンティストは数学や統計の知識を持ちデータに意味を付与し,それを実装できるエンジニアリングの能力の持っている人であり,更に,この能力を使ってビジネス課題を解決するコンサルティング能力を持っている人」である,と定義している。人々によっては上記の能力の一つでも欠けている人はデータサイエンティストではないと断言する。
データサイエンティスト
データサイエンティストは,データに意味を付与する人で,数学や統計の知識を持ちつつ,自然や社会現象の課題解決に挑むビジネスマインドの持ち主である。
統計学とは
統計学は様々なデータの科学的な分析法の一種[1:1]である。特に,大量のデータの中に存在する法則性(規則性)を扱う分析方法である。また,統計学は大量のデータを観察する中で現れるのはデータの不確実性を認識するもので,この不確実性の変動の中には確率法則があり,それを見つける学問[2:1]でもある。更に,統計学は集団の現象を数量的に観察することにより,その集団が持つ性質や規則性を見つけ出す方法論の研究[3:1]でもある。
統計学
統計学とは,大量の集団データから見えるよくわからないデータの変動から,ある規則性を数量的に見つけ出し,科学的な分析に役に立つための手法や方法を整理しておいた学問である。また,大量の集団データを見つめつつ,データの変動からの規則性を手法や方法を整理していく統計学はデータサイエンティストが備えるべき基礎の数学と共に必須項目の一つである。
-
Nate Silver (2015) The Signal and the Noise: Why So Many Predictions Fail--but Some Don't Paperback – Illustrated. ↩︎
-
有賀友紀,大橋俊介(2019)RとPythonで学ぶでーたサイエンス&機械学習(実践的),マイナビ ↩︎
-
Peter Naur(1974)Concise Survey of Computer Method, Petrocelli Books. (http://www.naur.com/Conc.Surv.html) ↩︎ ↩︎
-
C. Hayashi(1998)What is Data Science? Fundamental Concepts and Heuristic Example. In: C. Hayashi, K. Yamaji, HH. Bock, N. Ohsumi, Y. Tanaka, Y. Baba (eds) Data Science, Classification, and Related Methods, Studies in Classification, Data Analysis, and Knowledge Organization, Springer, Tokyo ↩︎
Discussion