時系列基盤モデルの性能向上に向けて【2024年10月版】
はじめに
自己紹介
株式会社松尾研究所でインターンをしているmic1928です。本記事は、松尾研究所 Advent Calendar 2024の記事です。
私は時系列データ分析を専門に研究しております。
趣味はディズニーで、ディズニーリゾートには年間で10回以上訪れています。私が時系列データ分析に興味を持ったのも、どうやったらディズニーのアトラクションを効率よく回れるかを考える中で、待ち時間予測を行う必要があると考えるようになったことがきっかけでした。具体的には、行きたい施設を選択し、その施設の待ち時間予測を行ったうえで巡回セールスマン問題を解くことで、最適な回り方が一つに決まるのではないかと考えました。
そんなわけで時系列データ分析に興味を持って東京大学や松尾研で時系列データ分析について学ぶ中で、特に、時系列基盤モデルを活用した予測精度の向上に強い関心を持つようになりました。本記事では、これまで時系列予測モデルについて行なった動向調査とタスク適用、学習による効果確認の成果について述べさせていただきます。
背景・目的
- 時系列データ分析の概要
時系列データ分析は、金融、気象予測、経済予測、IoTデータ解析など多岐にわたる分野で活用されており、現代社会における意思決定を支える重要な技術です。特に近年のデジタル化とデータ収集の高速化に伴い、大規模で複雑な時系列データをリアルタイムで分析し、将来の動向を正確に予測するニーズが高まっています。しかしながら、時系列データは一般にノイズが多く、変動パターンが複雑であるため、高精度な予測は依然として大きな課題とされています。この問題に対処するためには、データのパターンやトレンドを効果的に捉えられる高度なモデルが求められています。
- 従来モデルおよび深層学習手法の限界
伝統的な時系列データ予測モデルとしては、自己回帰モデル(AR)、移動平均モデル(MA)、およびこれらを組み合わせたARIMAモデルなどが広く使用されていますが、これらのモデルは線形性の仮定が強く、非線形で複雑な構造を持つデータには適さない場合が多いです[1]。
このような制約を克服するため、RNNやLSTM、Transformerなどの深層学習モデルも時系列データ予測に用いられるようになりました。これらのモデルは、データのパターンを柔軟に捉える能力を持ち、数理モデルに比べて精度の向上が見られることが多いです[2]。ただし、これらのモデルは事前学習を行わず、データセットごとに1から学習を行うため、大規模データセットが必要であり、学習にかかる計算コストも高くなりがちです[2:1]。
- 基盤モデルの登場
そこで注目されているのが、時系列基盤モデルです。これは、膨大なデータを用いて事前に学習されたAIモデルです。基盤モデルは、過去のデータから学習された知識を活用して効率的に新しいデータに適応できるため、少ないデータでも精度の高い予測が可能です[3]。基盤モデルの優位性は、一般に転移学習のような仕組みにより、データが限られる場面や計算資源が限られる場合でも高精度な予測が実現しやすい点にあります。
- 本研究の目的
本研究の目的は、これらの先進的な「基盤モデル」を時系列データの予測に適用し、その予測精度を評価することにあります。特に、本研究では基盤モデルの予測性能の向上に寄与する複数の要因を分析し、基盤モデルの有効性を検証します。また、実際のデータを用いた実験を通して、実務での予測精度向上に寄与するモデルの有用性を示すことを目指しています。
記事で紹介する内容の概要
本記事では、先行研究調査、データセットへの適用実験、予測精度向上に向けたアプローチ(Fine Tuning、外生変数組み込み、データ正規化、アンサンブル)について詳述し、各手法の効果について報告します。結果として、最適な手法選定やモデル改善の指針を示します。
時系列基盤モデルの調査
調査結果
4つの時系列基盤モデル、TimesFM、MOMENT、TTM、Chronosを調査しました。各モデルの発表論文をもとに、各モデルの特徴を以下の表にまとめました。
比較項目 | TimesFM | MOMENT | TTM | Chronos |
---|---|---|---|---|
開発元 | AutonLab | IBM | AWS | |
Hugging Face 月ダウンロード数(2024年9月時点) | 5,535 | 17,581 | 240,901 | 394,457 |
モデル構造 | デコーダーのみ | エンコーダー・デコーダー (固定長のみ) | エンコーダー・デコーダー | エンコーダー・デコーダー (言語モデルを使用) |
モデルサイズ | 17M、70M、200M | 40M、125M、385M | 1M、4M、5M | 20M、46M、200M、710M |
事前学習データ | 多様な時系列データ + 合成データ | 多様な時系列データ (時系列パイル) | Monash、LibCity | Monash M-competitions Kaggleデータセット |
対応タスク | 予測 | 予測、分類、異常検出、補間 | 予測 | 予測 |
コンテキスト情報の組 み込み | 多変量時系列データ | 多変量時系列データ、外部変数 | ||
セールスポイント | 長い出力長に対応、大規模な独自の学習データ | クロスモーダル転移学習、モデルの解釈可能性の高さ | モデルのコンパクトさ、多変量時系列予測 | 確率的な予測が可能、自然言語処理分野の最新技術の活用が容易 |
論文 | [4] | [5] | [6] | [7] |
モデルの選択方法
4つの時系列基盤モデル、TimesFM、MOMENT、TTM、Chronosを調査しましたが、実務において適切なモデルを選択するには、それぞれのモデルの設計思想や対応範囲を深く理解することが重要です。
例えば、「対応タスク」に着目すると、TimesFMとTTMは主に予測タスクに特化しています。一方で、MOMENTはクロスモーダル転移学習を活用し、ヘッドの交換によって分類や異常検知、補間といった多様なタスクに対応可能です。これにより、特定のタスクだけでなく複数のニーズに対応したい場合、MOMENTは有力な選択肢となるでしょう。
「コンテキスト情報の組み込み」も選択時の重要なポイントです。TimesFMやChronosは主に単変量時系列データを想定して設計されていますが、MOMENTやTTMは多変量時系列データや外部変数の組み込みに対応しており、複雑なデータ間の相互作用を活用できます。この特徴は、特に多変量予測が求められるユースケースにおいて強みとなります。
さらに、Hugging Faceでの月間ダウンロード数という観点では、ChronosやTTMが高い人気を誇っています。人気の高いモデルはコミュニティが活発であり、ノウハウや技術サポートを得やすい点が実務上のメリットです。この点で、ChronosはAWSが提供するモデルとして、最新の自然言語処理技術を活用しやすい基盤となっている点も注目に値します。
「モデルサイズ」も考慮すべき要素です。計算資源が限られている環境では、最も軽量なTTM(最大5M)が適しています。一方で、計算資源に余裕があり、より高い表現力が必要な場合には、Chronosの710Mといった大規模モデルが選択肢となります。
これらの情報を踏まえると、以下のような選定基準が考えられます。
- 多様なタスク対応を求めるならMOMENT。
- 長い時系列データの処理や複雑な相互作用の利用が必要なら、Chronos。
- 計算リソースが限られている場合はTTM。
最終的には、予測精度だけでなく、モデルサイズ、計算コスト、データ特性、さらには開発元の信頼性やコミュニティの活発さを考慮し、総合的に判断することで、プロジェクトに最適なモデルを選択することが可能です。
実験
-
実験設定(条件・評価指標)
本研究では、4つの時系列基盤モデル(TimesFM、MOMENT、TTMs、Chronos)を用いて予測精度を評価しました。評価データセットとしては「M5 Forecasting - Accuracy」コンペティションのデータを使用し、小売ドメインデータでの予測精度を評価しています。このコンペティションは、Walmartの全米3州(カリフォルニア、テキサス、ウィスコンシン)で収集された階層的な販売データに基づき、28日間の将来販売数を予測することを目的としています。このデータセットには、価格、プロモーション、曜日、特別イベントなどの外生変数も含まれており、多様な変動要因を考慮した予測が可能となっています。
目標設定
実験の目標として、当初はKaggleで銀メダルレベルの予測精度を目指しましたが、あっさり達成してしまったため、最終的には金メダルレベルの精度向上を目標に設定しました。これに向けて、以下の改善手法を実施しました。
- 数理モデルの適用:従来のARIMAなどの数理モデルも併用し、基盤モデルとの相対的な性能を確認。
- 学習期間の調整:学習データの期間を128~1024の間で変更。
- ファインチューニング:全部門の売り上げデータを用いてファインチューニングを実行。
- 外生変数の組み込み:他部門の売り上げデータの追加変数をモデルに組み込み、精度向上を図る。
- データ正規化:標準化およびMin-Maxスケーリングを実施する。
- アンサンブル:異なるモデルを組み合わせることで全体の予測精度を向上。
評価指標
予測の評価指標としては、コンペの評価指標と同様に、加重平均二乗誤差のルートスケール化誤差 (Weighted Root Mean Squared Scaled Error, RMSSE) を使用しました。この指標は、スケーリングおよび重み付けによる調整を考慮したものです。
実験結果のまとめ
各手法の実施結果は以下の通りです。何も工夫を行わない状態ではTimesFMの性能が最も良いという結果になりました。
- 数理モデルの適用: 34モデルを試行したが、いずれも基盤モデルの性能に及ばず、効果なし。
- 学習長の変更: TimesFMとChronosに対して入力長の変更(32~1024)を行ったが、性能向上なし。
- Fine Tuning: TTMsおよびChronosにおいて性能向上を確認。特にTTMsで著しい改善。
- 外生変数の組み込み: TTMsに対して行なったが性能低下。
- データ正規化: TTMsで精度向上を達成。標準化とMin-Maxスケーリングのいずれも効果的だったが、ChronosやTimesFMでは効果なし。
- アンサンブル: TTMs、Chronos、TimesFMの3モデルの予測値を平均したアンサンブルモデルが最高精度を示した。
※なお、これらの結果は、使用したデータのドメインやサイズ、用いるモデルのバージョンなどによって大きく変動する可能性がある点に留意が必要です。
結果の解釈と考察
Fine Tuning:
各モデルに適応した微調整が可能であり、特にTTMsとChronosの性能向上が顕著でした。TTMsは計算リソースが限られる環境で特に有効であると考えられます。
外生変数の組み込み:
効果を示さなかった原因として、以下のようなことが考えられます。
- モデルアーキテクチャが外生変数の適応に最適化されていなかった可能性がある。
- 外生変数を含むデータが不足しており、学習に十分な情報を提供できなかった可能性がある。
データ正規化:
TTMsでは顕著な性能向上が確認されましたが、ChronosやTimesFMでは効果が限定的でした。性能向上が見られた理由として、データ正規化を行うことで、予測対象データを基盤モデルの学習データ分布に近づけることができた点が挙げられます。
アンサンブル:
多様なモデル特性を組み合わせることで、個々の弱点を補完し合う効果があったと考えられます。特にTTMs、Chronos、TimesFMの3モデルを組み合わせた結果が最良であったことから、異なるアーキテクチャの特性が相互に補完し、精度向上に寄与した可能性があります。
まとめ
- 結果のまとめ
6つのアプローチを試みた結果、Fine Tuning、データ正規化、アンサンブルが有効であることが確認されました。特に、TTMsモデルに対するFine Tuningとデータ正規化は大幅な精度向上につながり、目標精度の実現に大きく貢献しました。
- 所感
外生変数の組み込みが効果を示さなかったことから、時系列データへの最適な変数選択やデータ準備が重要であると感じられます。また、アンサンブル手法において、多様なモデルを組み合わせることで予測精度の向上が実現することが確認され、データ特性に応じた柔軟な手法選定が必要であることが示唆されました。
- 今後の方向性
今後は、外生変数の活用に対応したモデルアーキテクチャの発展が期待されます。また、日本産の時系列基盤モデルの開発や、自然言語モデルを活用した時系列解析の可能性についても注視が必要です。
-
ZHANG, G. Peter. Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing, 2003, 50: 159-175. ↩︎
-
YU, Bing; YIN, Haoteng; ZHU, Zhanxing. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting. arXiv preprint arXiv:1709.04875, 2017. ↩︎ ↩︎
-
ZHOU, Ce, et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt. arXiv preprint arXiv:2302.09419, 2023. ↩︎
-
DAS, Abhimanyu, et al. A decoder-only foundation model for time-series forecasting. arXiv preprint arXiv:2310.10688, 2023. ↩︎
-
GOSWAMI, Mononito, et al. Moment: A family of open time-series foundation models. arXiv preprint arXiv:2402.03885, 2024. ↩︎
-
EKAMBARAM, Vijay, et al. Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series. CoRR, 2024. ↩︎
-
ANSARI, Abdul Fatir, et al. Chronos: Learning the language of time series. arXiv preprint arXiv:2403.07815, 2024. ↩︎
Discussion