回帰分析における「回帰係数の解釈」とは何を指すか
要約
- 回帰分析を用いるとき、結果の読み取りとして「回帰係数の解釈」を行う場面は少なくない
- 一般的には「説明変数Xが1単位上がると、目的変数Yが回帰係数
分だけ上がる」といわれるが、どうもわかりにくいので、「増分」という考え方で解釈するほうが良いのではないかと思う\beta - 因果推論でいう介入有無での条件付き期待値として考えるやり方を上手く拡張する
- 当然データによっては外挿になることがあるので、そういう部分では完璧ではないが、予測ではなくモデルを通して事象を理解するという取り組みの上では、一定有効な手段なのではないか
設定
とりあえず扱いやすいように、
今回は回帰係数の統計学的な性質や要請に深入りしないので「都合の良いデータが得られて、都合よくパラメータが推定できた」ところをスタートラインにする[1]。これらの要請が満たされない場合は現実的には多くあると思うが、人には時として極端に理想化された設定のもとで知りたいことが多くあるし、実際「回帰係数の解釈」に関する議論自体は上記のモデル構造である限りは、これらの要請が満たされない場合であっても変わらないと思われる[2]。
回帰係数の推定プロセスも省略する。ググれば出るしZennでもよく書かれる。MSEを最小化せよ。
一般的解釈
「解釈」という言葉に関する盲言
そもそも「解釈」という言葉が(特にビジネスや社会科学で)割と濫用されるようにも思われる。例えば広告効果測定で回帰分析を行ったときに「施策の質が良かったので回帰係数が大きな値を取った」というような、回帰係数がその値を取るに至った裏側にあるドメインやメカニズムへの言及を含めて「解釈」の範囲にする場面も見受けられる。
個人的にこの「解釈」は回帰モデルのスコープを超えるものであって「考察」という言葉がより適切だと考えている。ここで「回帰モデルからは後述の解釈までしか得られない」という話をしたいわけではないし、分析者が「考察」をする必要がないとも思っていない。ただ「回帰係数の解釈」と「回帰係数を用いた考察」は切り分けて考えたほうが良く、なんなら「モデルの解釈」もまた別であると考えた方が良いと思っていて、今回はその中でも「回帰係数の解釈」について考えると言いたい。
この記事でも「解釈」は回帰モデルのスコープの範囲に収まる内容に留める。いわば回帰係数などが含まれる「結果の表」をどう読み取るか、という話に閉じる。
議論
比例係数:Xが連続変量のとき
一般論として、回帰係数
これは重回帰モデルが「一次関数」の形式で定式化されていて、
増分:Xが2値のとき
Xが連続変量を取るときは比例係数として考えることは誤りではないが、Xが
として得られる(もちろんどの行が
ここで
提案:Yの「増分」として解釈する
こうすると、連続変量においても2値の場合と同じような解釈をできないか考えたくなる。
解釈として異なるのは、
調査データの例
調査データを用いて増分の解釈をする事を考える。アンケートは例えば以下のような設問を考える。
アンケートのデータはこの1~4が直接数値として入力される。1に近いほど商品に深く接しているという「方向」を仮定して、これを順序変数として扱う場合には、データの変換をもって増分解釈に持っていく事はできそうである。
いくつか変換の余地はある:
A. 2値化:4と回答した場合に0、そうでない場合に1
B. 4と回答した場合に0、そうでない場合以下の様な形で変換
- 3→1
- 2→2
- 1→3
C. one-hot encoding:各回答に当てはまるかどうかで4つの特徴量を生成
- 多重共線性を避ける場合は、たとえば4のダミー変数を削除する
Aの場合は2値増分の解釈でよい。ただし、せっかくの聴取設問の情報量を失うことになるので、2値化の基準によってはあまり良い考察を得られないかもしれない。
Bの変換を行った場合は、「知らない」と回答した人の増分を0として、それ以上の接触をしている人には重みを付けた増分が与えられることになる。この重みが妥当であるのかに付いて回帰モデルは答えてくれない。
というモデルで、4と回答した場合には
Cの変換を行った場合は1と類似の解釈ができる。聴取設問の情報量を失わないので、たとえば「1と回答した人は、総回答しなかった人と比べてこれだけの増分」という解釈はできる。一方で「1と回答した人は、4と回答した人と比べてこれだけの増分」という解釈ができるかが問題となるが、おそらくできるのではないかと思う。
という回帰モデルで表現してみる。
メディア・ミックス・モデルの例
例えば目的変数と説明変数で単位を統一することは、主にメディア・ミックス・モデル(MMM)としての回帰モデルでは広告予算と売上との間のモデル化としてよく採用される。
ここでSalesは売上、TVCMとWebは広告予算を指す。広告媒体間の金額規模が大きく異ならない場合は、この統一を行うことで
Googleの開発したMeridianでは、例えばTVCMの増分は、TV以外のメディアの値を0にすることで残った結果として評価する(統制変数による制御は残す)。要は強制的に他のメディアを打たなかった場合の反実仮想を作っていることになる。
結論と課題
結論、回帰係数の解釈では、説明変数が二値か離散変数か、あるいは連続変数かによらず、因果推論などで行われる介入の有無による増分の変化、という捉え方を拡張する形で増分・比較による解釈をしたほうが実践的であるように思われる。
つまり多少めんどくさくても、比較基準として「その説明変数が0のときのYの条件付き期待値」を算出し、「その説明変数が特定の値のときのY条件付き期待値」との差を「増分」として解釈するほうが「この変数が1単位上がるとき、Yが
ただし、データによっては無理やり0を代入する等の操作が必要となり「外挿では?」という疑念も拭いきれていない。ただ、外挿が問題になるのは予測器としてに回帰モデルを使う場合により意識するべきで、良いパラメータを得られた前提での解釈であれば、問題ないのではないか、とも思っている。逆に言うと、本来0を含みうるはずなのに、0が含まれていないデータを使って得られた回帰係数で、上記の様な増分・比較のアプローチを取ると、係数のバイアスが考察時の意思決定を下手に誘導するかもしれない。
すでに誰かが主張していたり、あるいはすでにデファクトスタンダードな解釈だったりするかもしれないが、多くの教科書では回帰係数を解釈するときの考え方が比例係数的であると見えているので、わかりにくい説明かもしれないがなんか残しておく。
参考文献
高橋将宜,『統計的因果推論の理論と実装 : 潜在的結果変数と欠測データ』,共立出版,2022
Meridian Documents
Discussion
特徴量を加法的に解釈する方法ですね。
線形回帰の解釈について、係数×特徴量をひとかためで見て、それらの合算とする見方です。決定木系のモデルを線形的に解釈する手法では、しばしば線形回帰をそのように捉え直して類推をきかせます。
決定木の解釈というとSHAPが有名ですが、実際、線形回帰にSHAPを適用すると、shap値=係数×特徴量になります。SHAPの原論文(Ribeiro,2016)でも詳しく議論されています。
異なる文脈からの言及で恐縮ですが、つい連想したのでコメントいたしました🙇
ありがとうございます!
直感的な考えだったので、同様の主張が論文になっているところまでは追えていませんでした。
概ね間違った理解ではなさそうで安心しました。論文の案内もありがとうございます、拝読します!