📝

駆け出しデータサイエンティストによるスキルセットの整理：キャリア設計の考え方

2025/06/01に公開

 はじめにこんにちは、SE出身の駆け出しデータサイエンティストの「マチ」です。以前、「【キャリア設計】得意分野の見つけ方：駆け出しデータサイエンティスト向け」という記事で、自分に合ったキャリアの方向性について考察しました。

今回はもう少し具体的に、「どんなスキルをどのように整理すればよいか」というテーマで考えてみました。整理にあたって、以下の2つを参考にしました。
一般社団法人データサイエンティスト協会が定義している

「データサイエンティストに求められるスキルセット」
初心者データサイエンティストに向けて独断と偏見だけで選んだ

読んでおいてもらいたい情報まとめ
下図の通り、スキルは３つの領域に分けられます。それぞれについて、自分の経験や視点を交えながら紹介していきます。



データサイエンティスト協会のページより引用

 1.ビジネス力データ分析を価値につなげるには、技術だけでは不十分です。ビジネスの構造や課題を理解するスキルが欠かせません。


 1-1.業務理解力と課題整理力分析の背景や目的を正しく理解しないまま進めてしまうと、的外れな結果につながる可能性があります。以下のような取り組みを通じて、業務や課題の全体像を把握することが重要です。
顧客の立場や業界構造、業務フローの全体像を把握する
自社・他社の過去事例を調査し、成功・失敗の傾向を把握する
現場ヒアリングを通して、データの収集方法や業務上の制約条件を確認する
プロジェクトの背景や目的を明確にし、「なぜこの課題に取り組むのか」を言語化する

 1-2.仮説・評価指標を設計する力良い分析は、良い仮説から始まります。何を検証すべきかを言語化する力は、結果の解釈や次のアクション設計にも直結します。また、成果を評価するためのKPIや評価指標を適切に設計することも重要です。目的に合った指標を選ぶことで、分析の価値を定量的に伝えられるようになります。
参考書籍
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
施策デザインのための機械学習入門

〜データ分析技術のビジネス活用における正しい考え方

 1-3.ステークホルダ対応と対話力ステークホルダーとの調整

分析を現場に届けるには、「相手に合わせて伝える力」も欠かせません。関係者と要件を整理し、スコープやタスクの前提を明確にしながら進めていくと、合意形成もしやすくなります。
ストーリーテリング・資料化

分析結果を資料にまとめる際には、ストーリー性のある構成と視覚的な工夫が求められます。非エンジニアにも伝わる言葉で、説得力のあるプレゼンができると良いでしょう。
参考書籍
データ分析失敗事例集: 失敗から学び、成功を手にする

 2.データサイエンス力データに潜む構造やパターンを見つけ、価値ある示唆に変換するためのスキルです。


 2-1.探索的データ分析（EDA）EDAでは、分析の前にデータの傾向や特性を把握します。具体的には、以下のような作業を行います。
欠損値や外れ値の確認
分布の把握とグルーピング
相関関係の確認や仮説検定（t検定・カイ二乗検定 など）
参考書籍
データ解釈学
データ分析に必須の知識・考え方 統計学入門

仮説検定から統計モデリングまで重要トピックを完全網羅
指標・特徴量の設計から始める データ可視化学入門

データを洞察につなげる技術
スモールデータ解析と機械学習

 2-2.モデリングと予測目的変数と説明変数の関係を数式やアルゴリズムで表現し、予測や分類を行います。
特徴量設計

カテゴリのエンコーディングやラグ変数の作成などを行います。
モデル構築

回帰・分類・クラスタリングなどのモデルを構築します。
評価とチューニング

目的に応じて精度、F1スコア、AUC、シャープ比などを使い分けます。
参考書籍・記事
(書籍)Kaggleで勝つデータ分析の技術
(記事)今あらためて考える特徴量エンジニアリング

～予測精度をあと一歩改善するテクニック


(記事)Scikit-learnの使い方まとめ(機械学習入門・サンプル集)
(記事)LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】

 2-3.因果推論と実験設計単なる相関ではなく、因果関係を明らかにする力も求められます。なお、A/Bテストなどを繰り返していく際には、実験条件や結果を継続的に記録・比較できるようにしておくことも重要です。こうした「実験管理」は、再現性の確保や継続的改善に不可欠なプロセスです。
A/Bテストなどを設計する際には、適切なサンプルサイズの見積もりや、

効果を検出するための統計的な検出力[1]の確保が求められます。
DID（差分の差）やPSM（傾向スコアマッチング）などの因果推論手法を用いて、

交絡因子[2]の影響を抑え、共変量[3]のバランスを調整します。
参考書籍
機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック
データ分析に必須の知識・考え方 認知バイアス入門

分析の全工程に発生するバイアス その背景・対処法まで完全網羅 
因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ

 3.データエンジニアリング力データを「使える形」に整えるためのスキルです。インフラ的な部分も含め、現場では欠かせない領域です。


 3-1.データ取得とクレンジングSQL、API、DWHなどからデータを取得し、分析しやすい形に整える必要があります。Pandasなどを用いて、以下のような処理を行います。
欠損値の補完・正規化
データの結合・分離
型の変換・文字列処理
参考書籍・記事
(書籍)Python 実践データ分析 100本ノック 第2版
(書籍)改訂新版 前処理大全〜SQL/pandas/Polars実践テクニック 
(記事)欠損データ
(記事)外れ値の意味と求め方を解説｜必ずしも除外することが正解とは限らない？

 3-2.分析基盤・ワークフローの構築分析やモデリングを安定的に実行するためには、環境構築や処理の自動化も必要です。例として以下が挙げられます。
AirflowによるETLパイプラインの構築
JupyterやDocker、仮想環境を使った実行環境の構築や管理

 3-3.モデルの運用と本番展開構築したモデルを現場で使うには、保存・再学習・API化などの運用設計が必要になります。
Pickleやjoblibによるモデルの保存
MLflowでのバージョン管理や再学習の仕組み作り
モデルのAPI化と監視・自動更新
参考書籍
機械学習システムデザイン

―実運用レベルのアプリケーションを実現する継続的反復プロセス 

 おわりに今回紹介した分類は、キャリア設計だけでなく、現場でのスキルギャップ把握や育成計画にも役立つと思います。最初から全部できる必要はありません。自分の得意・不得意を整理して、どこから伸ばすかを明確にすることが第一歩です。これからも「データで課題を解く」ことを目指して、着実にスキルを積み上げていきたいと思います。

脚注
検出力とは、「効果があるのに見逃さない力」のことです。たとえば、A/Bテストで本当に差がある場合に、それをきちんと見つけ出すために必要な実験の信頼度を表します。検出力が低いと、せっかくの改善があっても「効果なし」と誤って判断してしまうリスクがあります。 ↩︎
交絡因子とは、分析で調べたい「要因」と「結果」の間に入り込み、両方に影響を与える“別の要因”のことです。たとえば、「アイスの売上」と「熱中症の患者数」が増えるのは、実は「気温の上昇」という交絡因子の影響かもしれません。 ↩︎
共変量とは、結果に影響を与える可能性がある、調整すべき「他の変数」のことです。たとえば、「年齢」や「性別」など、分析の精度を上げるために一緒に考慮する情報です。 ↩︎