Rで始める(1)データサイエンス
本記事ではデータ処理をする言語として「R」をベースに「データサイエンス」について,関連する概念や統計学の基本的な内容を参考書籍[1][2][3][4]などをもとにしながら,関連事項を整理しておきたい。
まず,データと情報の違い
データは単なる事実や数字の並びに過ぎない。言わば情報の断片でありまだ情報とは言えない。データが情報と呼ばれるようになるには,データに意味を付加する処理,解釈,構造化などを経てからである。これらの過程に必要とする手法がデータサイエンスである。要するに,データはデータサイエンス手法を経て情報が生成されるのである。その意味で,データサイエンスの主な役割はデータにコンテキスト(Context:前後関係,事情,背景,状況など)を加えること[5]である。下記にその過程を図示しているが,単純な数字並びのデータがコンテキストを加えるデータサイエンス手法により特定の意味を持つ情報として変身する。統計学者でデータサイエンティストのNate Silver[6]は「数字はそれ自体何かを語ることはない。私たちが代わりに語る。私たちが数字に意味を与えるのだ」と主張する。
図1 数字並びからデータサイエンス手法を経て情報になるまでの模式図
データサイエンスとは
データサイエンスの言葉[7]が文献に使われ始めたのは1974年の頃[8]であると言われる。当時は,データサイエンスのことを「データを扱う科学」や「データの変換・保管・表現形式などを決定するための原理」などと定義していいた。しかし,この定義[8:1]は「データマネジメント」や「データハンドリング」に近い。近年,時代に見合うデータサイエンスを統計学者ら[9]は次のように定義している。「データサイエンスは,統計学をベースにデータ分析・統合に留まらず,それが意味する結果を含むもの」である。「データサイエンスの目的は複雑な自然・人間・社会的現象の隠れた意味を明かす既存の理論・手法などを確立だけでなく,新たに開発される手法や概念を含むもの」だ,としている。簡単に言えば,データサイエンスとは多様な分野のデータにある新たなコンテキストを加える学問分野である。
なぜ,データサイエンスがこれだけ求められるようになったのか。それは単なる事実や数字羅列のデータが増えたためで,そのデータに様々な意味が含まれていることに気づき始めたためである。
データサイエンス
データにデータの意味を加える理論や手法を意味し,情報化社会に伴い自然や社会現象を示す様々な分野から生産される広範なデータを,数学や統計学の観点からデータが示す新たな自然や社会現象を明らかにする学問,これがデータサイエンスだ。
データサイエンティストとは
データサイエンティストら[4:1]は上記のデータサイエンスの作業を行う人である。つまり「データサイエンティストは数学や統計の知識を持ちデータに意味を付与し,それを実装できるエンジニアリングの能力の持っている人である。更には,この能力を使って課題解決をするコンサルティング能力を持っている人」である。人々によっては上記の能力の一つでも欠けていとデータサイエンティストではないと断言する。
図2 データサイエンティストの基礎及び応用分野
データサイエンティスト
データサイエンティストは,データに意味を付与する人で,数学や統計の知識を持ちつつ,自然や社会現象の課題解決に挑むビジネスマインドの持ち主である。
統計学とは
統計学とは様々なデータの科学的な分析法の一種[1:1]である。特に,大量のデータの中に存在する法則性あるいは規則性を扱う分析方法である。また,統計学は大量のデータを観察する中で現れるデータの不確実性を認識するもので,この不確実性の変動の中には確率法則があり,それを見つける学問[2:1]である。更に,統計学は集団の現象を数量的に観察することにより,その集団が持つ性質や規則性を見つけ出す方法論の研究[3:1]でもある。
統計学
統計学は大量の集団データから見えるよくわからないデータの変動から,ある規則性を数量的に見つけ出し,科学的な分析に役に立つための手法や方法を整理しておいた学問である。また,大量の集団データを見つめつつ,データの変動からの規則性を整理していく学問で,データサイエンティストが備えるべき基礎の数学と共に必須項目の一つである。
図3 統計学の歴史等
-
Nate Silver (2015) The Signal and the Noise: Why So Many Predictions Fail--but Some Don't Paperback – Illustrated. ↩︎
-
有賀友紀,大橋俊介(2019)RとPythonで学ぶでーたサイエンス&機械学習(実践的),マイナビ ↩︎
-
Peter Naur(1974)Concise Survey of Computer Method, Petrocelli Books. (http://www.naur.com/Conc.Surv.html) ↩︎ ↩︎
-
C. Hayashi(1998)What is Data Science? Fundamental Concepts and Heuristic Example. In: C. Hayashi, K. Yamaji, HH. Bock, N. Ohsumi, Y. Tanaka, Y. Baba (eds) Data Science, Classification, and Related Methods, Studies in Classification, Data Analysis, and Knowledge Organization, Springer, Tokyo ↩︎
Discussion