📖

【論文紹介】Predictive Inference with the Jackknife+(予測区間の算出手法)

2022/08/16に公開約4,100字

SREホールディングス株式会社 データサイエンティストの向後です。
2022年2月からJoinして不動産AIの開発に携わっています。
(以前は日系メーカーのR&D部門で数理最適化まわりの応用研究に従事していました。)
本記事では、予測区間の算出方法を調査している際に見つけた論文を、要点を絞って紹介します。


論文情報

  • 題目:Predictive Inference with the Jackknife+(原版arXiv版
  • 著者:R. F. Barber (Chicago Univ.), E. J. Candes (Stanford Univ.), A. Ramdas (CMU), and R. J. Tibshirani (CMU).
  • 出典:The Annals of Statistics, 2021
  • 引用:被引用数107(記事執筆時点)/NuerIPSやICMLなどで引用されている

TL;DR

  • Overview

    • リサンプリングで学習した複数の回帰モデルを用いて、アウトサンプルデータに対して\alpha分位点を算出して予測区間を求める
    • リサンプリングの方法や\alpha分位点の計算方法の違いにより、いくつかの派生がある(e.g. Jackknife+, CV+, etc...)
  • Pros

    • 回帰モデル f:\mathbb{R}^n\rightarrow \mathbb{R} かつ データが i.i.d. であれば適用可能
    • 対象のアウトサンプルデータ1点+インサンプルデータのみで計算できる
    • 理論保証あり(実務に耐えうる程度にタイト)
    • 機械学習の初学者でも理解できるほどシンプルな手法で実装も簡単
    • sklearn互換のPythonモジュールが公開されている
  • Cons

    • リサンプリング数だけ回帰モデルの学習/推論が必要なので計算量が増加しやすい(精度を重視したい際には計算効率がイマイチ)
    • 時系列データについては適用できない
    • 最先端研究のため実務的な知見をカジュアルには得にくい(ブログ等ではまだあまり扱われていない様子)

Problem Setting

i.i.d. のデータ (X_{i},Y_{i})\in \mathbb{R}^{d}\times\mathbb{R}, i=1,2,..., について、回帰問題を考えます。
具体的には、関数 \hat{\mu}:\mathbb{R}^{d}\rightarrow\mathbb{R} について、インサンプル \{(X_{i},Y_{i})\}_{i=1,...,n} を用いて学習し、アウトサンプル X_{n+1} を特徴量ベクトルとして真値 Y_{n+1} を予測する回帰問題です。

回帰モデル \hat{\mu} について、100(1-\alpha)% 予測区間 \hat{C}_{n,\alpha} を以下で定義します。

\mathbb{P}\{Y_{n+1}\in\hat{C}_{n,\alpha}(X_{n+1})\}\geq1-\alpha

\hat{C}_{n,\alpha} は予測値 \hat{\mu}(X_{n+1}) に基づいて算出した区間であり、真値 Y_{n+1} が当該区間に実際に含まれる確率が (1-\alpha) 以上となるような区間の推定値です。

ここでは、データ分布 P および学習アルゴリズム \mathcal{A} についての仮定は置きません。


Proposal Method

予測区間 \hat{C}_{n,\alpha} = [\hat{I}^{-}_{n,\alpha},\hat{I}^{+}_{n,\alpha}] を以下に従って算出します。

\hat{I}^{+}_{n,\alpha} = \hat{q}^{+}_{n,\alpha}\{\hat{\mu}_{-S_{k(i)}}(X_{n+1})+R_{i,K}\}
\hat{I}^{-}_{n,\alpha} = \hat{q}^{-}_{n,\alpha}\{\hat{\mu}_{-S_{k(i)}}(X_{n+1})-R_{i,K}\}


\hat{q}^{+}_{n,\alpha}\hat{q}^{-}_{n,\alpha} は、それぞれ (1-\alpha)分位点と \alpha分位点です。具体的には、

\hat{q}^{+}_{n,\alpha}\{v_{i}\}v_{1},...,v_{n} の中で \lceil(1-\alpha)(n+1)\rceil番目の小さい値、

\hat{q}^{-}_{n,\alpha}\{v_{i}\}v_{1},...,v_{n} の中で \lfloor\alpha(n+1)\rfloor番目の小さい値です。

(ここで、v_{i}\in\mathbb{R},i=1,...,n です。また、\hat{q}^{-}_{n,\alpha}\{v_{i}\}=-\hat{q}^{+}_{n,\alpha}\{-v_{i}\} が成立します。)


次に、回帰モデル \hat{\mu}_{-S_{k(i)}} と 絶対残差 R_{i,K} について説明します。

元の学習データ(インサンプルデータ)セット S=\{(X_{i},Y_{i})\}_{i=1,...,n}K個の互いに素な部分集合 S_{1},...,S_{k},...,S_{K} に分割します。K個の回帰モデル \hat{\mu}_{-S_{k}} を、それぞれ学習データサブセット S\setminus S_{k}を用いて学習します。ここで、k(i)=k\in \{1,...,K\} \ \ s.t.\ \ (X_{i},Y_{i})\in S_{k} です。絶対残差 R_{i,K},i=1,..,n は、それぞれ \hat{\mu}_{-S_{k(i)}} を用いて算出します。具体的には、以下に従って算出します。

R_{i,K} = |Y_{i}-\hat{\mu}_{-S_{k(i)}}(X_{i})|, i=1,..,n


以上が、予測区間の算出方法になります。

最大のポイントは、従来のナイーブな手法では \hat{\mu} を用いて予測区間を算出していたところを、本手法では \hat{\mu}_{-S_{k(i)}} を用いて予測区間を算出しているところになります。とてもシンプルですね。


Discussion

論文中では、K < n のときを "CV+法"、K=n のときを "Jackknife+法" と名付けています。それぞれリサンプリングで良く知られている Cross Validation法 と Jackknife法を起源としているため、このように呼んでいます。

本手法については理論的な証明がなされており、以下の特性があると述べられています。

理論カバレッジ 典型カバレッジ 学習回数 評価回数
\geq 1-2\alpha \gtrsim 1-\alpha K K \times n_{outsample}

また、Kの値については、予測精度と計算回数に関する下記トレードオフがあるため、目的や使用するデータセットの性質などに基づいて適宜設定することになります。

  • Kの値を小さくすると、各学習に使用できるデータサブセットのサイズが小さくなるため、\hat{\mu}_{-S_{k}},k=1,...,K の予測精度が低くなります。一方で、学習回数と評価回数が少なくなるため、計算時間を抑えることができます。
  • Kの値を大きくすると、各学習に使用できるデータサブセットのサイズが大きくなるため、\hat{\mu}_{-S_{k}},k=1,...,K の予測精度を維持できます。一方で、学習回数と評価回数が多くなるため、計算時間の増大につながります。

おわりに

私はこの分野について詳しくはありませんが、もの凄くシンプルかつ理論保証付きの手法が、比較的最近に提案されていることに驚いた次第です。

残念なことに本手法を時系列データに適用することはできませんが、後続の研究(ICML2021)で解決が図られているようです。ホットな研究トピックのようなので、進展をウォッチしていきたいと思います。

Discussion

ログインするとコメントできます