データサイエンスを記述と予測と因果推論に分類する
A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks を読んだまとめです。
モチベーション
業務で予測モデルの構築や、予測モデルを用いる機能の検討を行うことが多いのですが、本当に必要なのは予測ではないと強く感じています。実際、予測モデルを適用したい業務については次の状態です。
- 現状で業務の中で予測を行っていない
- 予測を行いたい理由を聞くと、予測結果がどのような特徴に左右されるのか知りたいという
- 同様にヒアリングすると、予測結果を高めるためにはどのような介入を行えばよいか知りたいという
この状態でも予測モデルを作成することはできますが、予測結果を業務に組み込むことは著しく困難です。現在の業務フローが予測結果に基づくものでないため、予測結果を提供しても既存の業務フローでは用いられません。
予測結果がどのような特徴に左右されるのか知ることは予測モデルを作成しなくてもできます。モデルを作成する場合には、解釈性の手法を適用できるモデルを選択する必要がある、モデルの予測結果と各特徴量との相関を可視化する必要がある、といった追加の考慮事項が発生します。また、その結果を解釈しやすいようにグラフや表の形で提供する必要があり、これには提供する形式だけではなくその解釈を行うためのトレーニングの提供についても検討が必要です。
最後に、予測結果を高めるためにどのような介入を行えばよいか知るためには、介入を行った際の因果効果の推定が必要になります。これは単純な予測モデルを構築するだけで達成することはできません、背景となる共編料を揃えた上での因果効果の推定が必要になります。この分野は現在機械学習を用いて急速に発展している分野であり変化が激しいうえ、古典的な記述統計に比べて標準的な手続きが定義されていないために、実装者の手腕に結果が大きく依存します。また、実験デザインを行うことや結果の解釈を行う難易度が高いため、利用者へのトレーニングの提供に困難が予想されます。
このため、「予測したい」という要求に対し、その要求が表す内容を把握し、上記の課題について検討する必要があります。一方、ユーザーになぜ予測したいのか、予測結果をどう用いたいのかヒアリングしても「単に予測したいだけ」と言われてしまい検討が前に進まないことが多いです。これは「予測」という単語で異なる3つの概念、記述・予測・因果推論をまとめてユーザーが表現しているためです。プロトタイピングなどの手法を通じて、データサイエンス側が業務の理解を、ビジネスサイドが予測手法の理解を行い、真に実現したかったものについての理解を深めていく必要があります。
ここまでに、予測で異なる3つの概念を表していると述べましたが、その分類の出典となるのが今回取り上げた A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks です。今回はなんとなく使っていた「記述」「予測」「因果推論」という分類の定義について、改めて知るために出典を読みました。
以降はその際の読書メモです。
要約
- 統計では相関関係だけを扱い因果関係に関する言及を避ける風潮であったが、最近出てきた「データサイエンス」の分野は因果関係について言及することにためらわないため、改めて因果推論について見直す機会となっている
- そこでデータサイエンスの取り組みを記述、予測、反実予測の3通りに分類し、遂行のために必要な必要なデータ、おいている仮定、データ分析について議論する
- データ分析において、対象分野の専門知識の役割を十分に説明しないことは、一般に広まったデータサイエンスに関する誤解の原因となっていると主張する
- 因果推論は通常、良いデータと良いアルゴリズムだけでなく、専門知識も要求する
TOC
- A Classification of Data Science Tasks
- Prediction vs. Causal Inference
- Example
- Implications for Decision-making
- Processes and Implications for Teaching
- Conclusion
A Classification of Data Science Tasks
データサイエンスのタスクを、記述、予測、反実予測に分類する。
記述 (Description) の定義
- データを用いて、実世界に対する定量的な要約を提供すること。
- 例. 平均値や割合、教師なし学習を用いたクラスタリングや可視化
予測 (Prediction) の定義
- データを用いて、実世界の特徴から、別の実世界の特徴へと射影させること
- 例. 教師あり学習 (ランダムフォレストやニューラルネットワークなど) を用いた相関分析やリスク差の予測
反実予測 (Counterfactual Prediction) の定義
- データを用いて、実世界が実際と違っていた場合の実世界の特徴を予測すること
- 因果推論に必要
- 例. 実世界のすべての人間が直腸がんのスクリーニングを受けた場合と受けなかった場合の死亡率の変化の推定
- ランダム化比較試験や、観察研究の実験における交絡因子を用いた調整を用いる
データサイエンスと各分類との関わり
- 強化学習は反実予測と等価ではない (後ほど議論する)
- 統計的推論 (Statistical Inference) はすべてのタスクに必要
- それぞれの分類は明確に分かれているわけではないが、この分類は各タスクを実行するための、要件や仮定、分析について明らかにするための出発点となる
- データサイエンスの目的はデータの要約を提示し、予測し、因果推論を行うことにあるのであって、機械学習アルゴリズムを使うことが目的ではない
Prediction vs. Causal Inference
予測と因果推論の違いについて。
データサイエンスのサイエンスへの応用は予測タスク
- データサイエンスは商用分野への応用で良い結果を残し、そこからサイエンスの分野、たとえば医療分野に応用された
- 一方、典型的には予測であって、因果推論ではなかった
- 病気であるかどうかの分類は行われているが、もし手術を行った場合にどうなるかの予測は行われなかった
予測タスクに必要なもの
- ラベル付けされた大規模なデータセット
- 入力と出力の対を学習するアルゴリズム
- 学習結果を評価するための評価用データセット (Gold standard)
予測と因果推論の違い
専門知識の果たす役割が違う。
- 予測: 入出力の対を明らかにする
- 因果推論: 入出力の対 (介入と因果効果の指定) だけではなく、因果構造の記述
Example
予測と因果推論の違いの具体例による説明。
Case1. 乳幼児の死亡予測
- 大規模なヘルスデータのデータベースを用いて次のタスクを行う
- 出力: 乳幼児の死亡率
- 入力: 妊娠中の診療履歴、生活に関する要因
- 時系列 (出力時点のあとのデータを入力として用いない) にさえ気をつければ追加の要求はない
- 専門的な知識もそれ以外には必要ない
Case2. 喫煙が与える因果効果の推定
- 喫煙の習慣が乳幼児死亡率に与える因果効果を知りたい
- 因果推論においては専門家が中心的な役割を果たすことを見ていく
交絡の問題
- 喫煙する人としない人では、ほかのさまざまな要因 (飲酒習慣、ダイエット、十分な医療機関へのアクセス) が揃っていない
- 喫煙の純粋な効果を知るためには、それ以外のさまざまな要因 (交絡因子) が調節されている必要がある
交絡因子をすべて調節すればよいというわけではない
- 出生時体重は喫煙習慣と乳幼児死亡率の両方に強い関連がある
- 喫煙習慣は出生時体重に関するリスクファクターになっている
- 出生時体重を調節してしまうと、母親に喫煙習慣がある低い体重の乳幼児の死亡率は、母親に喫煙習慣がない乳幼児の死亡率よりも低いという「出生時体重のパラドックス」に陥る
注: おそらく、母親に喫煙習慣がある場合は、その環境下でも出産まで生き残れるほどに健康な乳幼児のみが出産までを生き延びることができ、それ以外は流産や死産になるため
専門家 vs アルゴリズム
- 専門家の知識を持たない場合、すべての因子を調節してしまい、「出生時体重のパラドックス」を引き起こしてしまう
- 人間の専門家であれば、次のような対応ができる
- 調整すべき因子とそうでない因子を特定
- 利用すべきデータについて、たとえそれが収集されていなくとも利用を提案
- 感度分析を行い、そのようなデータがない場合の因果推論の結果の信頼性を評価
- アルゴリズムはデータに特徴が不足していることに気づけないし、警告もできない
因果推論
- ランダム化比較試験の場合、平均因果効果を 背後の作用機序を実験中に知ることができなかったとしても 推定できる
- ランダム化比較試験は A/B テストとも呼ばれている
- ランダム化比較試験は成立させることができない場合もある
- 難易度の問題、時期の問題や倫理上の問題がある
注: 喫煙が乳幼児死亡率に与える影響を知りたい場合、さまざまな妊婦に対し、妊娠がわかったときから喫煙習慣の人に禁煙を迫ったり、喫煙習慣のない人に喫煙を迫ったりしなければいけない。前者は難易度が高く (コンプライアンスの問題)、後者は乳幼児死亡率に悪影響の及ぶ可能性が見込まれるため倫理上の問題が発生する。
予測 vs 因果推論
- 予測と因果推論における専門家の知識が果たす役割を把握できていないことが、データサイエンスにおける混乱をもたらしている
- 共通の手法が使われることもまた混乱の元となっている
- 因果推論のみが専門家の知識を要求する
- したがって、その精度も機械的に計算される指標では測ることができない
Implications for Decision-making
意思決定への活用について。
予測モデルを因果推論に用いるべきではない
- 心疾患により5年以内の生存率が低いことを予測することは、死亡率を低減する方法をもたらさない
- 死亡率の予測において、入院することは予測値を上げるだろうが、入院しないことは推奨されない
- 予測モデルを誤って因果推論に用いてしまうと、誤った結論を招いてしまう
予測モデルは下される決定の情報提供をするが、意思決定の支援はしない
- 心機能に欠陥があると予測することは、心臓移植が最良の治療かどうか判断する情報を提供しない
- 因果推論は "what if" という疑問に取り組む
- たとえば、因果分析は心臓移植と薬物治療のうち、どちらが生存率を引き伸ばすかについて比較する
特定の状況下では予測と因果推論の区別は意思決定に不要
- 専門家の知識をエンコードしてアルゴリズムに入力できる場合、予測と因果推論の区別は意思決定に不要
- 囲碁を行うアルゴリズムは、もし他の手を打った場合の結果を予測できる
- 自動運転を行うアルゴリズムは、もし違う状況下だった場合の状況を予測できる
強化学習
- 囲碁においては、人の知識を導入することなく囲碁を打てるようなアルゴリズムを開発できた
- アルゴリズムは囲碁のルールや現在の碁盤の状況についてのすべての情報を得ることができ、アウトカムは打つ手にしたがって決定論的に決まるうえ、データは計算資源が許す限り任意に入手できる
- 科学者はアウトカムが非決定論的に決まり、ルールが不透明で、すべてのデータが手に入っているかどうかもわからないような状況で、試行錯誤ができない一度限りの勝負を行っている
機械学習がもたらす失望的な結果
- 腎疾患患者に対する epoetin の投与戦略の死亡率に及ぼす結果について考える
- 我々は epoetin の作用機序について十分な理解を持っていないため、電子的な医療データから介入を行った場合の効果を予測するモデルを構築することは不可能
- Watson for Oncology のようなデータサイエンスの応用について失望的な結果が広く知られるようになったのは、利用可能なデータともに専門家の因果効果に関する知識を埋め込むことが欠けていたためだろう
古典的データサイエンティスト vs コンピューターサイエンティスト
- 古典的データサイエンティスト (統計学者、疫学者、経済学者、政治学者) の慎重な態度と、コンピューターサイエンティスト、情報学者たちの「できる」という態度には隔たりがある
- 疫学者は極度に複雑なシステムに対して、因果構造のすべての解明や、全体最適な意思決定戦略の特定に挑むのではなく、平均因果効果の推定という「浅い」因果についての疑問に答えている
- データサイエンスへの新参者は、ボードゲームや自動運転など、既知の法則がある分野に取り組んできたので、予測と因果推論との違いを軽視するのは当然
- データサイエンティストが急増加するに伴い、データサイエンスが伝統的に取り組んできた医療や社会科学の分野に取り組む人が増えてきたため、この区別を知らしめる必要がある
Processes and Implications for Teaching
ハーバード大学医学部で行われたデータサイエンスについての教育プログラムについて。
- 記述・予測・因果推定の違いを学ぶ
- 予測タスクについてコンペ的に取り組み、各チームで競い合う
- 因果推論について取り組み、予測タスクとの差異 (たとえば、特定の指標でランク付けすることは不可能) を知る
- 因果推論に次のように取り組む
- 因果効果を推定するための仮想ランダム化比較試験の実験デザイン
- 仮想ランダム化比較試験を行える観察データを持つデータベースの特定
- 観察データから試験を仮想的に行い、因果効果の推定
- 対象に関する知識がないデータサイエンティストは、実験で明らかにしたい問を立てることも、実験を仮想的に行って問いに答えることもできない
Conclusion
- データサイエンスは良いデータとアルゴリズムだけではなく、対象となるドメインへの知識も重要
- 現在の「データサイエンス」という用語の再定義や、因果関係に興味のある「データサイエンティスト」の増加は、因果推論を含む科学的な問を原理的なデータ分析のフレームワークに統合するチャンス
- 因果推論を含むデータサイエンスでは次が必要
- 専門家の因果関係に関する専門的な知識と高度な分析とを統合する手法の開発
- 予測とは異なり、因果推論の妥当性の評価は専門家の知識に依存するため、データドリブンにはなりえないことの周知
- 因果グラフ (DAG) は学習アルゴリズムと専門家の知識の統合において、重要な役割を果たす可能性がある
- 予測を指してAIということもできるものの、真に知的というのならば、反実仮想を用いた推論ができてしかるるべきだろう
- 因果推論ができないのならば、それは AI と呼ぶに値しない
感想
記述・予測・因果推論の定義について
記述・予測・因果推論の定義自体は思い描いていたものとそう変わりませんでした。僕は次のように説明することが多いです。
- 記述 : 目の前のデータの特徴を知る
- 予測 : 目の前のデータを再現する
- 因果推論 : ある変化を起こすことによる効果をシミュレーションする
予測結果に基づいて業務を行いたいとよく聞くのですが、現状で業務について聞き及んでいる範囲では、データの記述に基づいて仮説を立案し因果推論の結果に基づいて意思決定を行いたいと解釈するのが良さそうでした。
因果推論の評価について
因果推論の手法自体の提案や、手法を適用した事例について述べている論文を読んだことがあるのですが、いまいちそれらの評価方法や評価方法の妥当性がわからず疑問に思っていました。今回の主張を見ると、専門家の因果関係に関する知識を再現できていることが重要であるとなっているため、因果推論の実験デザインにおいて専門家の意見を組み込むことになると思います。
一方、その組み込み方についての知識が自分には欠けているため、引き続き調査したいと思います。
因果推論自体の発展について
今までに何度か因果推論の手法を使って分析を行ったことがあるのですが、因果グラフの考え方を用いた現象の整理やドメイン知識が重要だと痛感する事例ばかりでした。因果グラフの利用については引き続き注目したいと思います。
Discussion