🕌

データに基づいて何かを意思決定するときのそこはかとない不安が言語化されてた件

2024/12/06に公開

データとそれに基づく思考について

Xより引用

このpostを見て思ったことは「真実は一つ解釈は無数」ですね。

念の為、帰納と演繹をおさらいすると

  • 演繹:ルールを先に決めてから判断する
  • 帰納:実際に試してから考える

というざっくりした理解。
演繹は決まったルール(正しいとされる前提)があり、正解不正解が存在する。
一方で帰納では観測した結果に基づき最もらしい答えを導き出す。

postの内容の通りデータに基づく統計、機械学習やLLMは帰納であるため正解はない。「正解」がないからこそ、人間にとって解釈しやすく活用しやすく行動しやすいように、いい意味でも悪い意味でも意思決定していくのが常だと考えます。

因果推論は最たる例だと最近よく感じます。因果推論は実務の世界ではほとんどのケースが事後観測データによる分析がほとんど。
ABで分けたけれども、セレクションバイアスがあったり、他のキャンペーンと期間が被っていたり、他社の影響でマーケット自体のトレンドが変わっていたり、いろんなことを考慮できていないケースが多い。
それらを考慮してバイアスを減らすための仮説の考案、バイアスを極力減らすために観測データの準備と加工、仮説を一応下支えできそうな他のデータの準備、これらのデータに対しての分析手法(時系列であればCausalImpactやDID、個人レベルで見るなら傾向スコアなど)の決定とその適用。
因果推論はそのケースに対してデータを用意しないとろくに推論できないことが多いので、このように時間をかなりかけて分析をしていくが、その割に合わないように分析結果はほとんど芳しくない(思うような結果が出ていないことが多い)。
それでも結果としてデータで何か答えを出すしかないので、分析者は信頼区間だったり標準偏差だったりと確率的に結果の値が変動することを以て報告することが多いですが、意思決定者は平均の点の値が必要なケースが多いので、結局不安中の不安の結果を出すようなことがしばしば(決して間違っているから不安ではなく、結局はデータから得られる情報で「たられば」を表現するので、どこか後ろめたい)

実際にこういう因果推論をしないといけないことが実務だとよく起こりうるので、どうやって意思決定に対して最もらしい答え(正解ではない)を出すかが重要であり、その答えの「後ろめたさ」を払拭するためには日々勉強しかないなぁと思うわけでした。

次は何か技術記事書きます

Discussion