エッセイ : 経済学的思想から眺めるデータサイエンス
本記事の内容と私自身について
私は現在金融機関でデータサイエンティストとして勤務していますが、学生時代は経済学を専攻しておりました(修士卒。出来はそんなに良くなかったですが、大学とは別の場所で経済学の講義を担当していました)。そのバックグラウンドを持つ私が様々な人や様々な実務に触れる中で感じたことをエッセイとしてまとめてみようと思います。完全に個人の経験に基づく個人的見解になりますのでご了承ください。世界の誰か一人の頭の片隅にでも残れば幸いです。
執筆に至った最も大きな個人的体験
2年も前のことになりますが、私はとあるデータ分析系のコンペに参加しました。「個人無担保ローン(要は消費者金融)の貸倒予測モデル」を学生の手で作ってみるコンペとなっておりました。私はそれが最終的に実務で用いられることを想定し、不適切な差別や判断がなるべく起こりえないホワイトボックスモデルを構築し(因子分析に基づく次元圧縮・ロジスティック回帰)、最終審査員に報告をしました。
その時のことは今でも忘れませんがうち一人(そのコンペの会社とは直接関係のないどこどこ協会のお偉いさんです)の人からは以下のお言葉をいただきました。
『いやでもさー!!!それで○○会社はいくら損をするの!?そこはどう考えてるのかな!?』『僕は君に言いたいことがあってあえて賞金を渡すんだ!無用なこだわりを持つな。』
100%完全に記憶しているわけではもちろんございませんが、急にこういう発言をたくさんの人が見ている中でされて本当にびっくりしてしまった経験があります。もちろん自分の考えや主張が未熟であったところはあるのかもしれませんが、正直トラウマになるくらい怖かったです。
こうした経験を通じて、「経済学の思想」と「機械学習の思想」の対立を強く感じることになりました。
前置きはこの程度として、さっそく本題に入っていきます。
経済学の思想
経済学とは
昨今はデータサイエンスの文脈でも「計量経済学」というキーワードをよく目にするようになりました。ここにも経済学というキーワードが登場しますが、そもそも経済学とは何でしょうか?私の認識では 経済学とは「経済事象に関する様々な疑問に答えるための学問」 だと考えています。ここで言っている様々な疑問とは例えば以下のような類です。
- なぜ不景気は発生するのか?不景気が発生した際に政府はどういった介入をすればよいのか?
- 高学歴の人は本当に就職活動で有利になるのだろうか?そうだとすればその理由は?
- AIの発展は人類から雇用を奪うのだろうか?
こうした様々な疑問に答えるため多種多様なアプローチが先人たちの努力により生み出されてきました。そのうちの一つが観察されたデータに基づいて疑問に答えを与えようとする計量経済学という学問です。
理論なき実証
さて、計量経済学を学ぶとき 「理論なき実証」 という言葉を目にすることがあります。これは「明確な仮説や理論的背景が無いにも関わらずデータ分析を行うこと」を意味します。計量経済学はこの理論なき実証に否定的です。なぜなのでしょうか。
例えば以下は日本の総所得と我々民間部門の消費合計額の時系列データを取得し、プロットした図になります。[1]
例えばこの発見に基づいて、ある政治家が以下のように主張をしたとします。
「政府が借金を一時的に抱えてでもお金を配ることで所得を増やせば、人々の消費額はそれに応じて増えるのではないだろうか。特に回帰係数を見れば我々が配った金額の内27%ぐらいは消費に回してくれそうだ。」
皆様はこの主張についてどう考えますでしょうか。
実はこの主張については著名な経済学者であるルーカスによる批判が経済学の世界においては非常に著名です。その指摘はおおよそ以下のようなものになります。
「もし消費者が『政府の借金の負担が将来いつか増税となって自分の元に負担として帰ってくる』と予想したならば、その時のために貯金すべくお金を使おうとしなくなるのではないか。つまり、『政府による借金が発生する前』と『政府による借金が発生した後』では推定された回帰係数の値が変化する(ここでは小さくなる)ことが予想される。」
こういうことが起きてしまうのは、このデータ分析が適切な理論的背景に裏打ちされた分析でないからである。きちんと消費者の意思決定にまで遡って、その行動を踏まえた推定を行うべきである。
この指摘はその後の(マクロ)経済学の展開を大きく変更させることになりました。そうした意味合いもあって ルーカス批判 と呼ばれたりしています。
経済学の思想とは
こういった事例や指摘に代表されるように、経済学の根底には 「経済事象の様々な疑問を解き明かす上で、データの関連性だけをエビデンスとするのは不十分」 という強い信念があるように私には見えます。まずは視覚的に関連性のあるデータについて、きちんとそのデータの関連性が生まれる理由に理論やロジックを通す。複数の相反する理論やロジックがあり得るなら、どちらが正しいかを別の手段で検証する。
先ほどの例なら「人々が消費貯蓄判断をどのように行っているのか」を数学的にモデリングし、不変と考えられるパラメータを推定することを通じて、人々が配られたお金のうちどれくらいを使うかを推測する[2]ことが一つの次なる手段になります。
このように (それまで観察されていたデータの構造が変化してしまう可能性まで)深く考察することを通じてなるべく精度高く経済事象を理解することが経済学の根底にある思想なのかなと思っています。ご存じの方は分かるかと思いますが、近年よく聞く因果推論もまさにこの思想に基づいる学問になっているかと感じます。
機械学習の思想
一方機械学習の目的は 「深く考察することを通じて事象を精度高く理解すること」より、「人の介在が必要な余地をなるべく減らし、実用的なもの(例えば予測モデル)を開発すること」 がその焦点にあるように思えます[3]。
欠損値の前処理すらいらない LightGBM なんていうライブラリの発明もそうですし、最近の Deep Learning の研究を眺めれば「○○限定のタスクではなく様々なタスクを一挙にやらせ、ものすごい精度を達成した」という記事を目にするようにもなりました。
実用性の観点においても、(少なくとも私の知る限りでは)経済学では研究対象があくまでテーブルデータの利用に留まっているところを、機械学習の力は画像や音声・自然言語といったデータにまでその活躍の場を広げていきました。
もちろん先ほどの消費と所得の関係性に基づく分析においては、もしかすると機械学習的アプローチはルーカス批判に抵触するような示唆を出してしまう可能性もあるでしょう。それでも、人手をかけることなく非常に多種多様なニーズに答えることができます。本当に素晴らしい発明です。
終わりに ~思想の対立を超えて~
経済学の「深く考察することを通じてなるべく精度高く事象を理解しようとする思想」と、機械学習の「人の介在が必要な余地をなるべく減らし、実用的なものを開発しようとする思想」。この2つは全く異なる思想やバックグラウンドを持ちながらも、データサイエンスという同じ舞台で交わっています。それゆえ時に互いが互いに対して「分かり合えない考え方」になってしまうこともあるようです。
ですが私の現時点での結論は、それぞれの学問が異なる制約下で異なる目的を達成するために進化してきたものなのだ、といった考えになります。お互いがお互いのことをもっと知って、いいところを引き出しあいながら「データからより大きな付加価値を生み出す」ことに邁進できると、とても素敵なことではないかなと感じています。
以上です。拙いエッセイにはなりましたが最後までお読みくださり有難うございました。
-
厳密には、 https://www.e-stat.go.jp/stat-search/file-download?statInfId=000032206415&fileKind=1 より取得したデータの内、国内総生産(支出側)をX軸、民間最終消費支出を Y 軸に取った図です。 ↩︎
-
ここで言っている精度とは「予測モデルの評価指標の良し悪し」ではなく、推定された関係性の頑健性のイメージです。推定された関係性が確実に維持されるのであれば機械学習のほうが圧倒的に予測精度に分がある印章です。 ↩︎
Discussion