📊

時系列予測におけるスケーリング則:ルックバックウィンドウサイズの最適化(論文解説)

に公開

はじめに

時系列予測モデルにおいて、ルックバックウィンドウ(過去データの参照範囲)をどの程度取るべきかは、実務上の重要な選択です。従来は「長いウィンドウを使えば使うほど良い」という考え方が一般的でしたが、この仮定は必ずしも正しくないと言われます。

GPTなどの大規模言語モデルでは「データが多いほど、モデルが大きいほど性能が上がる」というスケーリング則が成り立ちます。しかし、時系列予測では異なる挙動を示します。過去データの参照範囲を長くしすぎると、逆に予測精度が下がるケースが存在します。

本記事では、arXivに公開された論文「Scaling Law for Time Series Forecasting[1]の内容を解説します。この研究は、「データセットサイズ」「モデルサイズ」「ルックバックウィンドウサイズ」の3つの要素が予測性能に与える影響を、理論と実験の両面から分析されています。

論文の問題設定と観測された現象

論文では、時系列予測における基本的な問題設定として、ルックバックウィンドウサイズLとデータセットサイズN、モデルパラメータ数Hの関係を扱います。

実験で観測された現象

論文の実験では、以下の現象が観測されています。

データセットサイズが小さい場合

  • ルックバックウィンドウを336から1000に伸ばすと、精度が低下
  • 最適なウィンドウサイズは100〜200程度

データセットサイズが増加した場合

  • 最適なウィンドウサイズが徐々に大きくなる
  • 訓練データが10倍になると、最適ウィンドウも2〜3倍になる

データセットサイズが十分にある場合

  • 長いウィンドウでも性能が落ちにくくなる
  • ただし、ウィンドウを伸ばしても大きな改善はない

データセットサイズに応じて、最適なルックバックウィンドウサイズが存在します。

上記の図は、訓練データ量と最適なルックバックウィンドウサイズの関係を示しています。データが増えるほど、長いウィンドウを使っても性能が落ちなくなります。

論文の理論的貢献

研究者たちは、理論と実験の両面から、この現象を説明しています。

1. 誤差の分解

時系列予測の誤差は、ベイズ誤差と近似誤差に分解されます。

ベイズ誤差

  • システム自体の不確実性に由来
  • 過去のデータをどれだけ参照しても減らせない
  • ノイズや外部要因による変動

近似誤差

  • データサンプル数の有限性に由来
  • モデルの表現力の限界に由来
  • 学習の不十分さに由来

ルックバックウィンドウサイズを長くすると、ベイズ誤差は減少しますが、近似誤差が増加します。

2. スケーリング則の導出

論文では、以下のスケーリング則が導出されています。

データが限られている場合(Few-Data Limit)

  • 最適ルックバックウィンドウL_{\mathrm{opt}} \propto \frac{\log N}{\log \log N}
  • データ量Nが増加しても、最適ウィンドウは対数的にしか増加しない

データが十分にある場合(Data-Dense Limit)

  • 最適ルックバックウィンドウL_{\mathrm{opt}} \propto \left(\frac{N}{H}\right)^{1/\alpha_Z}
  • データ量Nが増加すると、最適ウィンドウも増加
  • モデルパラメータ数Hが増加すると、最適ウィンドウは減少

ここで\alpha_Zは、データセットの固有次元の分布(Zipf分布)に関するパラメータです。

3. データセット固有の特性

論文では、各データセットの情報劣化速度がZipf分布のパラメータ\alpha_Zで特徴付けられます。

  • Exchange(為替): \alpha_Zが大きい → 情報劣化が速い → 短いウィンドウが最適
  • ETTh1(電力): \alpha_Zが小さい → 情報劣化が遅い → 長いウィンドウが有効

実験による検証

論文では、複数のモデルとデータセットで実験を行い、理論を検証しています。

使用したモデルとデータセット

モデル

  • 線形モデル(NLinear)
  • 多層パーセプトロン(MLP)
  • Transformer(iTransformer)
  • 畳み込みネットワーク(ModernTCN)

データセット

データセット 変数数 頻度 用途
ETTh1/h2 7 1時間 電力予測
ETTm1/m2 7 15分 電力予測
Traffic 862 1時間 交通量予測
Weather 21 10分 気象予測
Exchange 8 日次 為替予測

実験で確認された事項

1. データセットサイズのスケーリング

  • すべてのモデルで、テスト損失が\mathcal{L}_{\mathrm{test}} \approx A + B/N^{\alpha_N}の形式でスケーリング
  • 理論予測と実験結果が一致

2. モデルサイズのスケーリング

  • データが十分にある場合、モデルサイズを大きくすると性能が向上
  • データが限られている場合、大きなモデルは過学習の傾向
    • 例:ETTm1データセットで、ModernTCNのパラメータ数を増やすと性能低下

3. ルックバックウィンドウの最適化

  • 訓練データの10%使用時:最適ウィンドウは短い(100程度)
  • 訓練データの50%使用時:最適ウィンドウは中程度(300程度)
  • 訓練データの100%使用時:最適ウィンドウは長め(500以上)

4. データセット固有の特性

  • Exchangeデータセット:最適ウィンドウが短い
  • ETTh1データセット:最適ウィンドウが長い
  • データセットの固有特性が、最適ウィンドウサイズに大きく影響

5. モデルサイズの影響

  • 小さいモデル:最適ウィンドウはデータ量にほぼ依存
  • 大きいモデル:最適ウィンドウがやや短くなる傾向(理論と一致)
  • ただし、データセットサイズの影響の方が支配的

論文の限界と今後の展望

著者らは以下の限界を指摘しています:

実験規模

  • 実験は主に中小規模のデータセット(最大で数十万サンプル)で実施
  • 大規模データセット(Timer[2]など)での検証は今後の課題

事前学習モデルへの適用

  • 理論はゼロから学習するモデルを対象
  • 事前学習→ファインチューニングのパラダイムへの適用は未検証

他のタスクへの拡張

  • 本研究は予測タスクに焦点
  • 分類や異常検知など他のタスクへの拡張は今後の課題

応用例(論文を受けての考察)

データ規模別の推奨アプローチ

小規模データ(数千〜数万件)

  • 短いウィンドウサイズから試す(50〜200程度)
  • シンプルなモデル(線形モデル、小さいMLP)を優先
  • 大きなモデルは過学習のリスクが高い

中規模データ(数万〜数十万件)

  • 中程度のウィンドウサイズを試す(100〜500程度)
  • モデルサイズとウィンドウサイズのバランスを取る
  • データの性質(情報劣化速度)を考慮

大規模データ(数十万件以上)

  • 長いウィンドウも試す価値がある(500以上)
  • 大きなモデル(Transformer、TCN)も選択肢
  • ただし、データ量に見合ったウィンドウサイズを選ぶ

モデル改善の優先順位

論文のスケーリング則から、以下の優先順位が示唆されます:

優先度 高:データセットサイズの拡大

  • データ量の増加は予測性能の向上に直結
  • スケーリング則\mathcal{L} \propto N^{-\alpha_N}が安定して成立

優先度 中:ルックバックウィンドウの最適化

  • データ量に応じた最適値が存在
  • 実験コストが比較的低い

優先度 低:モデルサイズの拡大

  • データが十分にない場合、効果が限定的
  • 計算コストが増加する

ユースケース例

以下は、論文のスケーリング則を実務に適用する際の考察です。

ケース1:小規模データ(日次売上データ700件)

  • Few-Data Limitに該当
  • 短いウィンドウ(30〜90日)を試す
  • シンプルなモデル(線形モデル、小さいMLP)を優先
  • 過学習を避けるため、モデルサイズを抑える

ケース2:中規模データ(センサーデータ8,700件)

  • データ量に応じて100〜300時間のウィンドウを試す
  • データの自己相関構造を確認し、情報劣化速度を推定
  • モデルごとに最適ウィンドウが異なることに注意

ケース3:大規模データ(分単位株価データ250万件)

  • Data-Dense Limitに該当
  • 長いウィンドウ(500〜2000分)も選択肢
  • ただし、金融データは情報劣化が速いため、無制限に伸ばさない
  • データ量に対する最適ウィンドウの伸び率を確認

金融時系列への適用(論文を受けての考察)

論文で使用されたExchangeデータセットは為替データであり、\alpha_Zが大きい(情報劣化が速い)特性を示しました。この特性は、多くの金融時系列データに共通します。

金融市場データの特性

情報劣化の速さ

  • 論文のExchangeデータセットでは、最適ルックバックウィンドウが短い傾向
  • 過去の価格情報は、時間経過とともに急速に予測力を失う
  • \alpha_Zが大きいため、Few-Data LimitからData-Dense Limitへの遷移が遅い

市場体制の変化

  • 金融市場は外部イベント(政策変更、経済ショック)で体制が変化
  • 過去の長期データが、現在の予測に有効とは限らない
  • ルックバックウィンドウを長くすると、異なる体制のデータが混入

推奨されるアプローチ

ウィンドウサイズの設定

  • データ量が十分にあっても、短めのウィンドウから試す
  • 日次データなら20〜60営業日程度
  • 分単位データなら数時間〜1日程度
  • 長すぎるウィンドウは、情報劣化とノイズ増加のデメリットが大きい

モデル選択

  • シンプルなモデル(線形モデル、MLP)が有効なケースが多い
  • 複雑なモデルは、データの非定常性に対して脆弱
  • モデルサイズを大きくするより、特徴量エンジニアリングに注力

データ拡充の方向性

  • 長期のヒストリカルデータを集めるより、高頻度データを収集
  • クロスセクショナルなデータ(複数銘柄、複数市場)を活用
  • マクロ経済指標など、外部データの追加を検討

注意事項

論文のスケーリング則は、データ分布が定常的であることを前提としています。金融市場データは非定常性が強いため、以下の点に注意が必要です:

  • ローリングウィンドウでの再学習を検討
  • 体制変化の検出と、モデルの再構築
  • バックテストでの検証(ウォークフォワード分析)
  • 最適ウィンドウサイズの動的調整

まとめ

本論文は、時系列予測における「データセットサイズ」「モデルサイズ」「ルックバックウィンドウサイズ」のスケーリング則を、理論と実験の両面から示しました。

論文の主要な貢献

  1. スケーリング則の導出

    • Few-Data Limit: L_{\mathrm{opt}} \propto \frac{\log N}{\log \log N}
    • Data-Dense Limit: L_{\mathrm{opt}} \propto (N/H)^{1/\alpha_Z}
    • データセット固有のパラメータ\alpha_Zが最適ウィンドウを決定
  2. 実験による検証

    • 8つのベンチマークデータセット
    • 4種類のモデルアーキテクチャ
    • 理論と実験結果の整合性を確認
  3. 実務への示唆

    • ルックバックウィンドウは長ければ良いわけではない
    • データ量に応じた最適値が存在
    • モデルサイズを大きくすると、最適ウィンドウは短くなる

今後の課題

  • 大規模データセット(数百万サンプル以上)での検証
  • 事前学習モデルへの理論の適用
  • 予測以外のタスク(分類、異常検知)への拡張

この研究は、時系列予測モデルの設計において、データに基づいたハイパーパラメータ選択の考え方の一案を提供していると思います。

参考文献

脚注
  1. Jingzhe Shi, Qinwei Ma, Huan Ma, Lei Li. "Scaling Law for Time Series Forecasting". arXiv:2405.15124v4, 2024. ↩︎

  2. Yong Liu et al. "Timer: Transformers for Time Series Analysis at Scale". arXiv:2402.02368, 2024. ↩︎

Discussion