【Python・Pysparkで学ぶ!】データ分析の基礎【概要】
概要
(一般社団法人データサイエンティスト協会@◾️)
本稿はデータ分析学習コンテンツ【Python・Pysparkで学ぶ!】の概要です。
ターゲットは、データ分析の初学者です。
【Python・Pysparkで学ぶ!】を読むことで、転職活動中の学習アピールや、企業研修の先取りのお役に立てれば幸いです。
データサイエンティストに必要なスキルセットとして有力な説は、一般社団法人データサイエンティスト協会が提唱する「データサイエンス力・データエンジニア力・ビジネス力」です。データサイエンティストのスキルセットにデータサイエンス力が入っているのは面白いですが、恐らく、データサイエンス力が主力で、データエンジニアリング力とビジネス力が助力という解釈で良いと思います。
◾️AsIs(現状把握)
近年のデータ分析は以下の2つの手法のうちどちらかを採用しているケースが多いです。
『ケース1BIツール利用』
➀データを取得しクラウドに取り込む
②クラウドと繋がったBIツールでAIが処理&アウトプット可視化
メリット:BIツールを活用することで低コスト且つ俗人性を低く抑えられる。
デメリット:チーム内にデータエンジニアリングのナレッジが貯まらず、IT人材が育ちにくい。
『ケース2分析官採用』
➀データを取得しクラウドに取り込む
➁データサイエンティストが処理&アウトプット可視化
メリット:柔軟性の高いアウトプットを取得可能かつ、チーム内にデータベース・データエンジニアリングのナレッジが貯まる。
デメリット:専門性の高いIT人材が必要となり、マネージャーを含む人件費が相当高い。
◾️AsIs(当事者)
『経営視点』
「人件費」と「ソフトウェア(10万円以上/年)」の比較を行います。
・人件費は費用です。
・ソフトウェアは(無形固定)資産です。
ソフトウェアは貸借対照表に資産として掲載できるため、ステークホルダーの受けが良いです。
ソフトウェアはスケールしたい場合、ライセンスランクアップやソフトウェアの買い替えで対応できるため、可能な限り、人を雇わずソフトウェアを採用したい。
『データサイエンティスト視点』
「自分」と「ソフトウェア(10万円以上/年)」の比較を行います。
・データエンジニアリング力はBIツールの方が強い。
・データサイエンス力はAI系SaaSの方が強い。
したがって、データ分析官の既存のバリューは今後相対的に低下していきます。AIの方が自分よりロジカルですしね。
一方で、今後もAI系SaaSのアウトプットに不安は消えません。なぜなら、人とAIはインプットが異なるからです。人はマネージャーの下で業務経験をインプットし、AIはビッグデータをインプットします。
ビジネスは公共の一般性と局所的な特殊性のグラデーションがあります。
◾️ToBe(あるべき姿)
ビジネスは公共の一般性と局所的な特殊性のグラデーション
このグラデーションに関する解像度が高い役割に、特殊性を持つデータを加工し一般性を持たせてほしいというニーズがあります。
データサイエンティストは自身の専門性に新しい能力を磨くことでこのニーズに応えることができます。
新しいバリュー
BIツール・AIを検証する能力「検証力」
今後データサイエンティストとしてキャリア歩むためには、検証力を磨く必要があります。
結論
今後ほとんどの分析はBIツールで十分になる。したがって、データエンジニアリング力『だけ』を磨いた人材は経営上の負担になります。
一方で、データサイエンス力、ビジネス力を磨いた人材は、『検証力』という側面でBIツールの上位互換の位置付けになり、経営上の資産になります。
Discussion
これからの「あるべき姿」が面白かったです!
ありがとうございます!