🎠

時系列データ分析論文解説④「 S-Mamba 」

2025/10/27に公開

 論文時系列データ分析のための論文紹介になります。Mamba の解説はこちらになります。

 タイトルIs Mamba Effective for Time Series Forecasting?
論文: https://arxiv.org/pdf/2403.11144

GitHub: https://github.com/wzhwzhwzh0921/S-D-Mamba

 概要Mamba (v1) を時系列予測に適用した
Simple-Mamba（S-Mamba）は低い計算負荷を維持しつつ、最先端の性能を達成した
シンプルに言えば、iTransformer の Mamba バージョンである

 モデル構造
Mamba レイヤーを理解できていれば、後は iTransformer と同じような構造です。
U_{in} \in \mathbb{R}^{L \times V} で V が特徴量、L が時系列長さになります。

 特徴量と時系列の反転
iTransfomer 同様、反転した後、時系列LをDまで圧縮します。

 双方向の相関
iTransfomer では特徴量次元に対して Transfomer Encoder に入力する事で、特徴量同士の相関のような計算が行われていました（参照）。
S-Mamba でも同様の狙いと思われます。
そして、ご存じの通り Mamba は状態空間モデルであるため、単方向の時間軸 t_0 \rightarrow t_L の計算しか行われません。しかし Transformer Encoder では双方向のAttentionを計算します。そのために、逆の順番でもMamba Blockに入力し、その出力を足すことで疑似的に双方向の計算を行っています。

 結果
結果はこのような感じです。やる気が無いような感じで申し訳ありませんが、詳細な考察などは論文をご参照ください。

 考察と感想紹介しておいて何ですが、単に色々組み合わせてやってみました、といった感じであり、アイデアの新規性などは無かったです（無駄にしたくない想いで記事にしました...）。
ひとつ気になる事は、結局 Mamba をはじめとするSSM というのは、情報を内部状態に圧縮する分、Attention に比べて不利です。原理的には Transformer の方が良いはずなんです。
なのに、ほぼ同じ構造である iTransfomer より平均的に若干良いのは不思議です。相変わらず RLinear が優れているデータセットもありますし...。
やはり、ひとえに「時系列予測」と言っても、データセットが違えばドメインが異なるわけで、それぞれに適した構造を考えてやる必要があるんじゃないかと、個人的には思うところです。