データ活用のレベル・観点まとめ
背景
取り組むべきデータ活用の施策は自組織のデータ活用レベルによって異なります。そもそも自分たちはどの地点にいるのか、評価するにあたりどのような観点があるのか、その切り口として参考になる記事をまとめてみます。随時更新。
8 Levels of Analytics
引用元: Data Science Levels for Competitive Advantage
引用元の意訳:
- Standard Reports: 過去何が起こったか分かる固定的なレポート
- Ad Hoc Reports: How many, how oftenなどの観点を追加したレポート
- Query Drilldown: レポート観察することで「〇〇別に見たらどうだろうか」など仮説が色々生まれてくるが、その仮説に基づいて探索的に多様な切り口で可視化したレポート。
- Alerts: 可視化に加えて、ビジネス上のアクションが必要となる閾値を定た監視
- Statistical Analysis: なぜある事象が発生しているのか、ある結果を変化させるにはどのような要素へアプローチする必要があるか、因果を明らかにする分析
- Forecasting: 過去のトレンドが継続すると仮定したとき、未来に何が起こるか予測
From Data to Wisdom
以下のようなイメージでいる。AIにDataを突っ込めばWisdomまで一足飛びでいけると思っているひとはさすがに減ってきた気がする。
- Data: 前処理
- Information: 特徴量抽出
- Knowledge: 関係性(相関など)
- Understanding: 因果関係
- Wisdom: ビジネス価値
Data Science Value Chain
データに対して何をするかではなく、ビジネス価値をデータを活用してどう達成するか、というマインドセットへの転換が必要と説いている。また、マクロな洞察からミクロな知見へと遷移し、オペレーションに対してアクショナブルな意思決定ができるよう段階が上がっていくと示している。いま我々はこの段階にいますと伝えやすい資料。
CRIPS DM Framework
参照元: Chapter 1 - Introduction to CRISP DM Framework for Data Science and Machine Learning
CRIPS DMにおけるデータ活用サイクル。他と共通しているが、ビジネス・課題理解から入ることが重要。
あまりに有名な図なので説明は割愛。
余談ですが、実務的には①のタイミングでデータの有無や品質を確認することが多いのではと思います。特に、実績の積み上げを優先し今あるデータで手っ取り早く得られる成果を出すことを求められる場面では、今あるデータを所与の条件としてその中でどの課題に取り組むか決定することがしばしばあります。
また④のモデリングに最初から入れることは稀で、まずは④はFrom Data to WisdomでいうInformation/Knowledgeに対して、その有用性を評価する形でサイクルを回すことになります。
Four Vs
ビッグデータがどうビッグなのか、4つのVで評価ができる。
参照元:The Four V’s of Big Data
ちなみに6Vsもありますが、4Vsの方が良く聞く気がします。
- Volume: 現時点のデータサイズ
- Variety:データの多様性
- 構造(テーブル)/半構造(JSONなど)/非構造(画像など)
- Velocity:データ増加速度
- Veracity:データの真実性
- データ品質やメタデータやデータリネージ、データコンテキスト
この観点を知ったとき、Veracityについては盲点だったと感心しました。データ量に目が行きがちですが、何を意味しているか分からないデータばかりあっても使えないですね。
データ品質の評価項目
[参照元: データ品質管理ガイドブック(https://cio.go.jp/sites/default/files/uploads/documents/data_hinshitu_guide_beta.pdf)
参照元: データの利活用推進に向けた
技術ガイドライン
このデータはこのままだと使えない、という話をする際に正確性や完全性をピックアップして利用したことがあります。特に人間が判断/計測して入力したデータについては問題があることが多いです。
事業計画はストーリーで語るべき
参照元: 「事業計画はストーリーで語るべき」10X CFOがPEファンド時代に学んだ、 経営と現場のつなぎ方
事業計画とデータ活用企画は似ているように感じていて、既存/新規事業という切り口は既にデータを利用している/いない業務に対するアプローチかという点で、1つの観点になりえると思います。
既存事業は例えば、手作業のデータ加工やレポーティングを自動化して省力化を図ったり、可視化ツールを導入してデータのアクセシビリティや表現力を向上させる施策などが当たります。データを利用する業務が既に存在するので、取り組み効果に対する確実性は高く、効果も業務スケールに比例すると期待できそうです。このケースはある程度手段から入っても問題なさそうです。
一方、新規事業に当たる状況ではデータを利用した業務が存在していないので、データと共にある業務の設計から入る必要があります。記事中でもKey takeawaysとして以下が挙げられています。
- 事業構造を正しく理解する
- そのなかで売上や利益へのインパクトが大きな指標を理解する
- コントロールできるものにフォーカスする
事業や組織、業務におけるイシューがそもそもデータで解決できる性質のものか、もしそうであればデータ活用をどのように業務に組み込んでいくかなど、Why/Whatの部分の議論を初めに詰める必要があります。効果も0から100まであり得るので、解く価値のある問題なのか見極める必要が出てきます。不確実性が高いので細かく検証サイクルを回す必要もあります。
Discussion