😇

そのデータサイエンティストは偽物だ。

に公開

はじめに

データアナリストとして多くの方と仕事をする中で、「この人はニセモノだな」と感じる場面に何度か遭遇しました。この記事では、そうした偽物のデータサイエンティストの特徴をまとめて、自らの戒めとします。偉そうに書いていますが、私自身も全てできているわけではないので、書いていて傷心しました。

データサイエンティストに求められるスキルセット

本題に入る前に、データサイエンティストに求められるスキルを整理しましょう。
日本データサイエンティスト協会が出しているスキルシートが参考になります。
ビジネス、エンジニア、サイエンスの3つの観点から必要なスキルを整理してくれています。
そろそろ2025年度版が出るので楽しみですね。

https://www.datascientist.or.jp/news/n-pressrelease/post-1757/

こちらの記事も参考にさせてもらいました。

https://qiita.com/aokikenichi/items/6934fb578686513fd496

1. SQLマシン君

SQL集計業務のみを行っているにもかかわらず、データサイエンティストを自称する人がいます。

もちろん、SQL集計でもビジネスに大きく貢献する分析は存在します。しかし、依頼された集計をただこなすだけでは、データサイエンティストとは言えません。特に業務が細分化されている大企業で見かけることが多い印象です。

2. Pythonが使えない

アカデミア出身の方に多いのですが、SASやRは使えてもPythonが使えない人が一定数います。

現在のデータ分析業界では、機械学習や生成AIとの親和性から、Pythonが主流となっています。モダンな技術を追いかけられていない時点で、サイエンティストを名乗るのは難しいでしょう。少なくとも、追いつく努力は必要です。

3. 技術を学ばない

上記と重なりますが、コードが汚かったり、クラウドやWeb開発の知識が乏しいデータサイエンティストが多いと感じます。

技術的な領域には必ずベストプラクティスや一般的な手法が存在します。全てを完璧に知る必要はありませんが、70点レベルの知識は押さえておくべきです。例えば、最近ではDatabricksやSnowflakeといったデータ基盤が主流ですが、これらの何が優れているのかを知らない人は、技術的な感度が低いと言わざるを得ません。

補足: DatabricksやSnowflakeは、大規模データの処理や分析を効率化するクラウドベースのデータ基盤サービスです。

4. 因果推論を知らない

私が因果推論からデータサイエンスに入ったからかもしれませんが、因果推論の基本を理解せずに機械学習モデルの改善やデータ分析を行っている人が多いと感じます。

数学的な深い理解は不要ですが、以下のような基本概念は押さえておくべきです。

  • 相関と因果の違い
  • バイアスの種類と対処法
  • 差分の差分法などの基本的な因果推論手法

これらを理解していないと、誤った数値を報告してしまうリスクがあります。

補足: 差分の差分法とは、介入の効果を正確に測定するための統計手法で、処理群と対照群の変化の差を比較します。

5. ビジネス貢献していない

当たり前に感じるかもしれませんが、意外と自身のビジネス貢献を説明できない人が多いのです。

  • 自分の分析がどうビジネスに影響を与えたのか
  • SQLマシンになっていないか

これらを説明できるようになりましょう。物事の因果関係は複雑なので、明確な因果を示せなくても構いません。しかし、少なくとも妥当なアプローチを取ったことを、納得感を持って話せる必要があります。

6. 特定分野に特化しすぎている

これも意外とよくあるパターンです。

具体例:「〇〇業界の▲▲部門における■■のチューニング管理を2年やっている」など。

業務の性質上、全ての工程に携われることは少ないかもしれません。しかし、その中でも視野を広げる努力をしているかが重要です。例えば、最近ではMLだけでなくLLMもトレンドとなっています。LLMを業務フローに組み込む取り組みをしているでしょうか。

業務で触れなくても、個人でキャッチアップし、チャンスが来たら掴む姿勢は持つべきです。

7.ライブラリ二キ

機械学習モデルを作るときにライブラリを使えばPython経験者であれば、誰でも3日くらいでモデルを作れるようになるでしょう。しかしその裏側にある数学的な理論の理解をしている人は本当に少ないと思います。勾配降下法について数学的に説明ができますか?(私はできません)
大学院を出ていて統計学や線形代数などの素養がある人はそのあたりを分かっている人が多く、そういった瞬間に「この人は本物」だと感じます。

まとめ

ここまで偉そうに書いてきましたが、正直に言うと、私自身もこれらの項目を全て満たしているわけではありません。むしろ、この記事は自分への戒めとして書いた側面が強いです。
私もサイエンティストを目指しているので一緒に勉強していきましょう!

Discussion