データサイエンスとは何なのか? - 改めて考えてみた
(gpt-4oによる生成)
はじめに
「データサイエンティストは21世紀でもっともセクシーな職業である」という記事が話題になってから10年以上がたちますが、未だデータサイエンティストという人々は何をしているのか、何をすればデータサイエンティストを名乗れるのか、あいまいなところが多いように思います。何かAI使ったり分析したりしてそうというイメージだけが先行しているように思えます。私は仕事柄、データ分析やAI構築の作業をやることが多いですが、改めてデータサイエンティストが何なのか聞かれたときに即答するのは難しいです。そこで、本稿ではデータサイエンティストが取り組んでいることについて明らかにすることを目的とします。
データサイエンティストという人はデータサイエンスをやる人を表しているはずなので、データサイエンスについて知ることができれば、自然とデータサイエンティストについても知ることができるに違いありません。そこで、データサイエンティストを知るためにデータサイエンスについてその正体を明らかにすることをひとまずの目標に設定します。
また、はじめに断っておくと私自身もデータサイエンスについて精通しているというわけではなく、勉強しながら書いているので間違いなどあるかもしれません。その場合はご指摘いただけると幸いです。
対象読者
- データサイエンスを学びたい人
- データサイエンティストについて知りたい人
データサイエンスの定義を考える
データサイエンスの定義は何でしょうか?
改めて問われるとよくわかりません。
そこでデータサイエンスという言葉の意味について、ネット検索で見つけることができる記事や本に書いてあるものを列挙してみることからはじめます。
-
「データサイエンスとは、データに隠されている実用的な洞察を、専門知識、数学と統計、特殊プログラミング、高度な分析、人工知能(AI)、機械学習を組み合わせて明らかにすることです。得られた洞察は、意思決定と戦略計画策定の指針として活用できます。」
IBM データサイエンスとは -
「データサイエンスは、ビジネスにとって意味のあるインサイトを抽出するためのデータの研究です。これは、数学、統計、人工知能、コンピュータエンジニアリングの分野の原則と実践を組み合わせて、大量のデータを分析する学際的なアプローチです。」
AWS データサイエンスとは -
「データサイエンスとは、データから意味のあるインサイトを引き出すために、データに関する専門知識、プログラミングスキル、数学や統計の知識を組み合わせた学問分野です。」
Adobe for Buisiness データサイエンスとは:定義とその重要性 -
「データサイエンティスト(分析人材)とは、高度に情報化された社会において、日々複雑化及び増大化(ビッグデータ化)するデータを、利用者の利用目的に応じて情報を収集・分析する技術を有し、ビジネスにおいて実行可能な情報を作ることができる者をいう。」
一般社団法人データサイエンティスト協会 -
「インターネットやIoTの普及などにより、私たちの社会は大きく変化を遂げました。こうした仕組みや機器は仕組みそのものを作るだけでなく、人々の行動や様々な情報をいわば自動的に記録するツールにもなっています。こうして得られたデータを活用し、社会生活をより豊かにしながら、新たな価値創造につなげるための様々な方法論や技術がデータサイエンスです。」
中央大学理工学部ビジネスデータサイエンス学科 -
「データから有用な情報・知識を引き出すための基本原理のこと」
戦略的データサイエンス入門 ビジネスに活かすコンセプトとテクニック -
「To answer, we discuss data science from three perspectives: statistical, computational, and human. Although each of the three is a critical component of data science, we argue that the effective combination of all three components is the essence of what data science is about.」
Science and data science, David M. Blei and Padhraic Smyth, Proceedings of the National Academy of Sciences 114 (33)
このように並べてみると、データサイエンスには明確な定義はなく、それを利用する人ごとに少しずつ考え方が違うように見えます。ただ、データを扱うことは一貫しているようです。また、データからビジネス価値を抽出することを想定しているものが多いですね。
データサイエンスは複数の分野からなる複合領域として考えることができ、キーになる分野は数学、統計学、IT技術、AI、経営、マーケティングなどであるといえそうです。
いったんまとめると、広義にはデータサイエンスはデータそのものに対する扱い方や分析手法の探求を目指す分野であるといえます。一方で、より狭義にはITやAIと統計学の手法を使ってデータからビジネスに有用な情報を引き出すことを目的とする分野がデータサイエンスであり、こちらのほうが一般的な認識になっているようです。複合分野であるがゆえにデータサイエンスのイメージをつかみづらいのかもしれません。
(gpt-4oによる生成)
言葉の意味から考えるデータサイエンス
一方で、「データサイエンス」という言葉からその意味を考えてみることにします。
「データサイエンス」は「データ」と「サイエンス」に分けることができそうです。
そこで、まずは「データ」について考えてみましょう。
日本産業規格のJIS X 0001-1994の「データ」の項目には「情報の表現であって,伝達,解釈又は処理に適するように形式化され,再度情報として解釈できるもの」とあります。
データはただの情報そのものではなく、別の処理や通信のために形式的な値として表されたものであると考えることができます。とくに、再利用できるというところが重要になりそうです。
再利用可能な形で保管された情報がデータであるということです。
ここで「情報」という語がでてきたので、そちらも調べてみます。
「情報」は同じくJISの基本用語では「事実,事象,事物,過程,着想などの対象物に関して知りえたことであって,概念を含み,一定の文脈で特定の意味をもつもの」と定義されています。
一般的過ぎてわかりにくいですが、何か特定の対象について知っていること全般のことのようです。
たとえば、自分の名前は自分が自分について知っている1つの情報とみなすことができますが、
それをWebのアンケートフォームに入力した場合、その情報はデータになったといえそうです。
次に「サイエンス」について調べてみます。「サイエンス」は日本語では科学のことです。ここでは科学を自然科学としてとらえることにします。また、以下に述べることはいささか私見も入った内容になります。科学が何かという話そのものも議論の余地がありますが、気になる方は辞書を引いたり科学論の書籍を探してみるといいかもしれません(文部科学省の資料、Webの辞書)。
科学は論理性、客観性、再現性を持つ学問であり、自然現象の背後に存在する法則を調べるために仮説を立て、実験によって実証することができます。この実証された知識の蓄積が理論として体系化され、さらに新しい仮説を考えることができます。このようにして科学は発展していきます。
ここで、再現性について補足しておきます。
再現性とは、まったく同じ現象に対してまったく同じ条件で実験を行ったときに必ず同じ結果が得られるという性質のことです。これによって、ある人が行った実験を他の人が客観的に確認することができ、普遍的な知識体系の構築が可能となります。そのため、科学では再現性が担保されていることが重要です。
これら「データ」と「サイエンス」という2つの言葉の意味からデータサイエンスという言葉について立ち返って考えてみましょう。データサイエンスをデータの科学としてとらえると、情報をデータ化するための適切な実験方法やデータを整理する方法の知識体系として考えることができそうです。
また、データは情報を再利用するためにあるので、データをどのように再利用すれば人間にとって有益なのかを科学的な方法論にしたがって体系化したものであるともいえます。
たとえば、あるデータをもとに仮説を立て、追加で実験を行い、その実験で得られたデータを使って仮説の検証を行うイメージです。
実験や観測から得られたデータを使って仮説検証したり、新しい洞察を得るという行為は自然科学の分野では一般的に行われてることです。データサイエンスはこのデータを使った方法論を広くビジネスに活用しようとする分野ということになりそうですね。
ところでビジネスの課題というのは、具体的には、会社の利益を上げたいとか顧客数を増やしたい、コストを削減したい、未来のリスクを予測したい、といったものです。実際のビジネスの現場では、データだけから有用な洞察を得ることは難しく、データになっていないビジネス情報も加味したり、必要があればデータ化しながら仮説検証のサイクルを回していくことになります。
そのためには数学や統計学の知識を使った手法やアルゴリズムとビジネスの知識をうまく組み合わせる必要があります。さらにデータはコンピューター上に保存され、ときにはデータベース管理システムを使って運用されていることも多いため、システムやデータベースについての知識も必要になります。近年はインターネット上のトラフィックの増加やIoTの発展も相まって、大量のデータを扱える機会が増えています。そのため、大量のデータから未知の傾向を見出す方法としてAIモデルの構築や設計の知識が必要になることもあります。このように考えていくと、データサイエンスが統計学やIT、AI、ビジネスの分野からなる複合分野になるのは必然のように思えてきます。
このような複合領域で業務にあたる人がデータサイエンティストです。実際にはすべての領域で高い能力を持っているスーパーマンは稀ですので、どこかの領域に偏って特化した人が多いはずです。そのため、人によって微妙にデータサイエンスの定義が違ってくる可能性は否定できません。明確な定義が難しいのはこういった事情がありそうです。
上記を踏まえてデータサイエンティストの仕事内容を書きだすと、やっぱり下記のようになるのではないかと思います。
- 顧客の要求や課題を解決するためにデータから解決策を考える
- 課題解決に必要なデータを取集して再利用できる形で保存する
- 収集したデータを統計的手法などを使って分析し、整理する
- 必要があればデータからAIモデルを構築し、未知データの予測に使う
- データを活用したサービスの企画設計、実装を行う
まとめ
- データサイエンスは、狭義にはITやAIと統計学の手法を使ってデータからビジネスに有用な情報を引き出すことを目的とする活動のことを指す。
- データサイエンスはビジネスにサイエンスの方法論を持ち込んだ複合領域なので、それを生業とするデータサイエンティストの業務内容も見えにくくなっている。
- データサイエンティストはデータから新しい価値を作ることを業務内容としていて、そのための課題解決の提案や分析、サービスの実装など多岐にわたるタスクをこなしている。
Discussion