〽️

回帰分析における「回帰係数の解釈」とは何を指すか

に公開2

要約

  • 回帰分析を用いるとき、結果の読み取りとして「回帰係数の解釈」を行う場面は少なくない
  • 一般的には「説明変数Xが1単位上がると、目的変数Yが回帰係数\beta分だけ上がる」といわれるが、どうもわかりにくいので、「増分」という考え方で解釈するほうが良いのではないかと思う
    • 因果推論でいう介入有無での条件付き期待値として考えるやり方を上手く拡張する
  • 当然データによっては外挿になることがあるので、そういう部分では完璧ではないが、予測ではなくモデルを通して事象を理解するという取り組みの上では、一定有効な手段なのではないか

設定

とりあえず扱いやすいように、YXが連続実数\mathbb{R}である場合の重回帰モデルを考える。行列表現で表現したほうが良いかもしれないが、今回は回帰係数の解釈がテーマになるので、任意のiに注目する表現で書き下したほうがわかりやすいと思うので、それを採用する。

Y_i = \alpha + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip} + \epsilon_i

今回は回帰係数の統計学的な性質や要請に深入りしないので「都合の良いデータが得られて、都合よくパラメータが推定できた」ところをスタートラインにする[1]。これらの要請が満たされない場合は現実的には多くあると思うが、人には時として極端に理想化された設定のもとで知りたいことが多くあるし、実際「回帰係数の解釈」に関する議論自体は上記のモデル構造である限りは、これらの要請が満たされない場合であっても変わらないと思われる[2]

回帰係数の推定プロセスも省略する。ググれば出るしZennでもよく書かれる。MSEを最小化せよ。

一般的解釈

「解釈」という言葉に関する盲言

そもそも「解釈」という言葉が(特にビジネスや社会科学で)割と濫用されるようにも思われる。例えば広告効果測定で回帰分析を行ったときに「施策の質が良かったので回帰係数が大きな値を取った」というような、回帰係数がその値を取るに至った裏側にあるドメインやメカニズムへの言及を含めて「解釈」の範囲にする場面も見受けられる。

個人的にこの「解釈」は回帰モデルのスコープを超えるものであって「考察」という言葉がより適切だと考えている。ここで「回帰モデルからは後述の解釈までしか得られない」という話をしたいわけではないし、分析者が「考察」をする必要がないとも思っていない。ただ「回帰係数の解釈」と「回帰係数を用いた考察」は切り分けて考えたほうが良く、なんなら「モデルの解釈」もまた別であると考えた方が良いと思っていて、今回はその中でも「回帰係数の解釈」について考えると言いたい。

この記事でも「解釈」は回帰モデルのスコープの範囲に収まる内容に留める。いわば回帰係数などが含まれる「結果の表」をどう読み取るか、という話に閉じる。

議論

比例係数:Xが連続変量のとき

一般論として、回帰係数\betaの解釈は「Xが1(単位)上がるときにYが上がる単位の倍率」と考える事が多い。例えばX、Yともに単位が「円」で、\hat{\beta}が0.5として推定されたときを考えると「Xが1円増えるごとにYは0.5円上がる」と読み解く。

これは重回帰モデルが「一次関数」の形式で定式化されていて、\betaが比例係数として理解することができる点で、XとYが連続値を取る限りでは別段誤りではないと思う。

増分:Xが2値のとき

Xが連続変量を取るときは比例係数として考えることは誤りではないが、Xが[0,1]のいずれかの値を取るときに、比例係数として解釈することはやや理解に混乱をもたらす。上述の重回帰モデルでp=2のときに単純化して考える。

Y_i = \alpha + \beta_1 X_{i1} + \beta_2 X_{i2} + \epsilon_i

X_{i1}が2値を取り、特定\のk行では0、l行では1を取るとすると、それぞれのYの当てはめ値は

\tilde{Y_k} = \hat{\alpha} + \hat{\beta_2} X_{k2} \\ \tilde{Y_l} = \hat{\alpha} + \hat{\beta_1} + \hat{\beta_2} X_{l2}

として得られる(もちろんどの行がkか、あるいはlかはランダムとする)。このときは「Xが0のときよりも、Xが1のときのほうが、\beta_1分だけYが大きくなる」として解釈することができそうである。ただ、実務的な解釈をすると「kに属するグループのほうが、lに属するグループよりも\beta_1の分だけ(平均的に)Yが大きくなる」という言語化が伝わりやすい場合もある。

ここで\tilde{Y_i}と表現しているが、上記の解釈を考える場合には、条件付き期待値E[Y_i|X_i1]と表現できると都合が良い。実際このような表現はしても良く、回帰モデルはYの条件付き期待値を表現していると理解してよい(高橋, 2022)。

X_2klの分解に対して独立である場合には、E[Y|X_1=1]-E[Y|X_1=0]=\beta_1となる気がしている。

提案:Yの「増分」として解釈する

こうすると、連続変量においても2値の場合と同じような解釈をできないか考えたくなる。
X_1が連続変量であった場合、2値のときと同様に以下のように条件付き期待値で表現できる。

E[Y_k|X_1=0]= \hat{\alpha} + \hat{\beta_2} X_{k2} \\ E[Y_k|X_1 \neq 0]= \hat{\alpha} + \hat{\beta_1} X_{l1} + \hat{\beta_2} X_{l2}

解釈として異なるのは、X_1が連続変量で0でない場合、増分は\hat{\beta_1}だけでは表現できず、\hat{\beta_1}X_{l1}を増分と捉える必要がある点にある。実務上理解を伴いやすいようにこれを表現するには、説明変数Xの単位について十分な議論がなされている必要があるように思われる。

調査データの例

調査データを用いて増分の解釈をする事を考える。アンケートは例えば以下のような設問を考える。

アンケートのデータはこの1~4が直接数値として入力される。1に近いほど商品に深く接しているという「方向」を仮定して、これを順序変数として扱う場合には、データの変換をもって増分解釈に持っていく事はできそうである。
いくつか変換の余地はある:

A. 2値化:4と回答した場合に0、そうでない場合に1
B. 4と回答した場合に0、そうでない場合以下の様な形で変換
- 3→1
- 2→2
- 1→3
C. one-hot encoding:各回答に当てはまるかどうかで4つの特徴量を生成
- 多重共線性を避ける場合は、たとえば4のダミー変数を削除する

Aの場合は2値増分の解釈でよい。ただし、せっかくの聴取設問の情報量を失うことになるので、2値化の基準によってはあまり良い考察を得られないかもしれない。
Bの変換を行った場合は、「知らない」と回答した人の増分を0として、それ以上の接触をしている人には重みを付けた増分が与えられることになる。この重みが妥当であるのかに付いて回帰モデルは答えてくれない。

Y = \alpha + \beta_1X_1

というモデルで、4と回答した場合には\alphaのみが残る。4以外の回答の場合は\beta X_1-\alphaが増分として得られる。実務上、マーケティング課題に対して上手く設計されたアンケートのデータは回帰係数は正になることが多い(認知していれば購入意欲も一定高い、という傾向は実際あるので、病的な商材でなければ)ので、X_1の値が大きいほど、増分は大きくなる[3]

Cの変換を行った場合は1と類似の解釈ができる。聴取設問の情報量を失わないので、たとえば「1と回答した人は、総回答しなかった人と比べてこれだけの増分」という解釈はできる。一方で「1と回答した人は、4と回答した人と比べてこれだけの増分」という解釈ができるかが問題となるが、おそらくできるのではないかと思う。
X_1, X_2, X_3, X_4をそれぞれ各回答番号のダミー変数として

Y = \alpha + \beta_1X_1 + \beta_2X_2 + \beta_3X_3

という回帰モデルで表現してみる。X_4を除いたのは多重共線性を避けるためである。Cの変換を前提にすると、X_1からX_3がすべて0の場合にX_4が1となっているはずなので、Bと同様\alphaが「4と回答した場合のYの条件付き期待値」として得られる。そうでない場合には、\beta_j X_j - \alphaを計算することで条件付き期待値E[Y|X_j=1, X_4=0]が各回答における増分として解釈できるように思われる。

メディア・ミックス・モデルの例

例えば目的変数と説明変数で単位を統一することは、主にメディア・ミックス・モデル(MMM)としての回帰モデルでは広告予算と売上との間のモデル化としてよく採用される。

Sales = baseline + \beta_1 TVCM + \beta_2 Web + \dots + \gamma Z

ここでSalesは売上、TVCMとWebは広告予算を指す。広告媒体間の金額規模が大きく異ならない場合は、この統一を行うことで\betaが直接売上への「貢献増分」として解して良さそうである。Zは統制変数で、\gamma Zの解釈は積極的に行わない。
Googleの開発したMeridianでは、例えばTVCMの増分は、TV以外のメディアの値を0にすることで残った結果として評価する(統制変数による制御は残す)。要は強制的に他のメディアを打たなかった場合の反実仮想を作っていることになる。

結論と課題

結論、回帰係数の解釈では、説明変数が二値か離散変数か、あるいは連続変数かによらず、因果推論などで行われる介入の有無による増分の変化、という捉え方を拡張する形で増分・比較による解釈をしたほうが実践的であるように思われる。
つまり多少めんどくさくても、比較基準として「その説明変数が0のときのYの条件付き期待値」を算出し、「その説明変数が特定の値のときのY条件付き期待値」との差を「増分」として解釈するほうが「この変数が1単位上がるとき、Yが\beta単位上がる」という比例係数的解釈よりもわかりやすいのではないかと思う。

ただし、データによっては無理やり0を代入する等の操作が必要となり「外挿では?」という疑念も拭いきれていない。ただ、外挿が問題になるのは予測器としてに回帰モデルを使う場合により意識するべきで、良いパラメータを得られた前提での解釈であれば、問題ないのではないか、とも思っている。逆に言うと、本来0を含みうるはずなのに、0が含まれていないデータを使って得られた回帰係数で、上記の様な増分・比較のアプローチを取ると、係数のバイアスが考察時の意思決定を下手に誘導するかもしれない。

すでに誰かが主張していたり、あるいはすでにデファクトスタンダードな解釈だったりするかもしれないが、多くの教科書では回帰係数を解釈するときの考え方が比例係数的であると見えているので、わかりにくい説明かもしれないがなんか残しておく。

参考文献

高橋将宜,『統計的因果推論の理論と実装 : 潜在的結果変数と欠測データ』,共立出版,2022
Meridian Documents

脚注
  1. つまり誤差項\epsilonの条件付き期待値が0で、目的変数・説明変数は各iについてi.i.dである。ついでに説明変数は互いに無相関で、多重共線性はない、あるいは回避できていると仮定する。 ↩︎

  2. 変わるのは、その解釈によって得られた考察がどれだけ現実を正しく捉えた考察であるかである。 ↩︎

  3. 考察として付け加えるなら「顧客が商品に対して理解が深まるほど、マーケティングKPIに貢献してもらいやすい」、というような結果が得られる。 ↩︎

Discussion

レオレオ

特徴量を加法的に解釈する方法ですね。
線形回帰の解釈について、係数×特徴量をひとかためで見て、それらの合算とする見方です。決定木系のモデルを線形的に解釈する手法では、しばしば線形回帰をそのように捉え直して類推をきかせます。
決定木の解釈というとSHAPが有名ですが、実際、線形回帰にSHAPを適用すると、shap値=係数×特徴量になります。SHAPの原論文(Ribeiro,2016)でも詳しく議論されています。
異なる文脈からの言及で恐縮ですが、つい連想したのでコメントいたしました🙇

Kien Y. KnotKien Y. Knot

ありがとうございます!
直感的な考えだったので、同様の主張が論文になっているところまでは追えていませんでした。
概ね間違った理解ではなさそうで安心しました。論文の案内もありがとうございます、拝読します!