📈

時系列予測モデルの比較選択時に知っておくべきこと

に公開

概要

時系列予測モデルの比較や選択を行う際に必ず知っておくべき2つの論文

についての紹介と解説。

※本記事を書きながら確認した所、RLinearはpreprintの状態のままで、論文として採択されてはいないよう。OpenReviewを見ると、高く評価されない理由に過去の別の論文(LTSF-LinearとRevIN)で提示された内容にとどまっているからというような理由があり、LTSF-Linearの主張の続編として知っておく価値はあると思うため、そのままRLinearについても記事にします。

結論を最初に

論文の主張

いずれも極めてシンプルな方法(LTSF-Linearは線形層、RLinearは線形層+正規化手法のRevIN+チャンネル独立の入出力)により当時すでに提案されていたTransformer系モデルを超える性能を出せることを報告している。
個々の論文への直接的な批判になることは避けているが、ベースラインの選定が甘い可能性があり提案されている手法が本当に有効なのかを問いかけている。

  • 特にLTSF-Linearは論文のタイトルからもその意図が明白。
  • RLinearは厳密には線形層の時系列予測タスクにおける挙動の分析や、入力長が小さく多チャンネルの場合の不安定性の分析等も取り扱っている。

自分が比較実験を行った際の結果と意見

気温推定を対象に私が以前時系列予測の比較実験を行った際も、RLinearよりさらに後に出たモデルも含めて、比較的簡単な手法(自分の実験の場合GRU+RevIN)を超えるモデルが見つからなかった。
※該当の気温比較実験は以前仕事で行い、現在データにアクセスできないため具体的な結果をここに書くことができない。。

時系列予測モデルの比較や選択を行う際は、線形層のようなベースラインに近いものや、LSTM, GRU, TCNのようなシンプルなモデルでまずしっかり基準となる性能を確認し、発展的なモデルは新しく相対的に優秀とされているモデルのみ等に数を絞り、本当に目的のタスクに有効か最低限疑いも持ちながら効率よく確認する形にすべきと思う。

これらの論文にたどり着いた経緯

時系列予測モデルの比較評価を行った際に、下記のような様々なTransformerやLLMベースのモデルを試した。

いずれも論文で喧伝されているような強さは感じられず、GRUやLSTMに負ける状態で、設定などに何か間違いがないかや関連する情報を調査するうちに、Transformer系のモデルの有効性に疑問を投げるLTSF-Linearの論文(Are Transformers Effective for Time Series Forecasting?)と、その続編のような側面を持つRLinearの論文(preprint)を見つけた。

各手法の論文提出順序

LTSF-Linear, RLinearいずれも、その時点で提唱されていた手法と比較しているため、一旦論文がarxivに提出(v1のsubmission)された順に各手法を並べる。
※LTSF-Linear, RLinearが比較対象としていないLLMベースの手法はカッコで表示

  • 2020/12/14 Informer
  • 2021/6/24 Autoformer
  • 2022/1/29 RevIN ※RLinear含め以後よく使われている時系列データに対し有効な正規化手法
  • 2022/1/30 FEDformer
  • 2022/5/26 LTSF-Linear
  • (2022/9/20 PromptCast)
  • 2022/11/27 PatchTST
  • (2023/2/23 FPT)
  • 2023/5/18 RLinear
  • (2023/10/3 Time-LLM)
  • (2023/10/11 LLMTime)

LTSF-Linearの内容

論文:Are Transformers Effective for Time Series Forecasting?

概要

タイトルの通り、Transformer系の手法が時系列予測に本当に有効かを問うような内容。

問題提起として、時間順序の依存関係が重要な時系列データに対し、アーキテクチャレベル(※アテンションは順序入れ替えに対し演算結果が不変)ではなく、位置エンベディングからしか順序による依存関係を処理できないTransformerが本当に有効なのかという疑問と、

However, in time series modeling, we are to extract the temporal relations in an ordered set of continuous points. While employing positional encoding and using tokens to embed sub-series in Transformers facilitate preserving some ordering information, the nature of the permutation-invariant self-attention mechanism inevitably results in temporal information loss.

その検証として非常にシンプル(embarrassingly simple)な線形モデルベースの手法との比較を行っている。

To validate our claim, we introduce a set of embarrassingly simple one-layer linear models named LTSF-Linear for comparison.

(引用はいずれもAbstractから)

結果

画像は論文のTable 2

二重線の左側が線形層ベースのシンプルな手法で、Linearは線形層1層のみ、NLinearは入力データをモデル入力前に最後の点の値で引き、出力に引いた値を加算することで、分布シフトの影響を軽減した方法、DLinearは線形層に分解(Decomposition scheme。移動平均によるtrend部分と残りのremainder部分に分解。)を追加した方法。

二重線右側がTransformer系を中心とした各手法で、本来ベースラインとなってもおかしくないNLinearやDLinearの方が強いということが見て取れる。

RLinearの内容

論文:Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping

概要

LTSF-Linearに続く内容として、3 Are Temporal Feature Extractors Effective?において、LTSF-Linear以降時系列予測でSoTAを出すモデルがいくつか出ているが、いずれもLTSF-Linearの少し前に出た時系列データに対し有効な正規化手法のRevINを使う下図のような枠組みで、Temporalで示される特徴抽出器に複雑なものを用いた構造になっているが、これが本当に効果があるのか、線形層で十分高い性能が出ていたことを考えると、RevIN+線形層相当のProjectionのみのモデル(RLinear)でも十分なのではないかということを検証している。

他にも、線形層の時系列データへの有効性の分析として、4.1 Roles of Linear Mapping in Forecastingで周期性への強さとトレンドへの弱さの指摘と、

4.2 Disentanglement and NormalizationでRevINがトレンドへ対応させるために有効であること、

多次元の入出力を1次元ごと個別に扱うCI(Channel Independent チャンネル独立)が特に入力の時系列長が短い場合に有効であること等に触れている。(5.2 When Linear Meets Multiple Periodsamong Channels)

結果

Table 3等を参照。

RevIN+線形層やMLPが高い性能となっている。

Discussion