🐍

Mambaで物体検出 完全に理解した

に公開

本記事は『エンジニア達の「完全に理解した」Talk  #67』 で発表した内容を再構成したものです。

Mamba とは?

皆さんはMamba[1]というアーキテクチャを知っていますか?
Mambaは 2023 年に提案されたアーキテクチャで、近年活用が進んでいます。

2025 年現在、LLM のような大規模なシーケンスデータを扱うモデルでは、Transformer[2]をベースにしたモデルが主流です。
しかし、Transformer には、計算量が O(N^2)のオーダーで増加してしまうという問題がありました。

Transformer の中でも重要な Attention 機構は、次のような式で表せられます。

\textnormal{Attention}(Q, K, V) = \textnormal{softmax}(\dfrac{QK^T}{\sqrt{d_k}})V

QK の内積計算で O(N^2)の計算が発生してしまいます。N はトークン長に関連するため、長いシーケンスを扱う際、計算量は深刻なボトルネックになります。

Mamba のアイデア

「もっとスケールしやすいアーキテクチャにできないのか?」ということで生まれたのが Mamba です。

Mamba は、SSM(構造化状態空間モデル)という技術を基盤としています。
SSM は次のような式で表されます。

h_t = \bar{A}h_{t-1} + \bar{B}x_t
y_t = \bar{C}h_t

h_t:時刻tにおける隠れ状態(過去の情報を圧縮保存)
x_t:時刻tの入力
y_t:時刻tの出力

SSM では、状態hに、データを圧縮し、過去の状態と現在の入力から出力を計算します。
SSM であれば、線形O(N)にスケールする計算量で、シーケンスデータを扱うことができます。

しかし、SSM にも大きな弱点がありました。それは、「必要な情報を選択する力が弱い」ことです。
Transformer の強みだった入力の重要度を計算する力が SSM にはなく、入力を全てフラットに見てしまうのです。

そこで、Mamba では選択機構を導入し、パラメータを入力に応じて動的に変化させることで、入力を状態に保存するか/しないかを判断することができるようになりました。
Selective State Space Model
Mamba: Linear-Time Sequence Modeling with Selective State Spacesより

Mamba の活用事例

LLM への応用

LLM をはじめ、実際に活用もされています。

例えば、Mistral AI は 2024 年に Codestral Mamba[3] を発表しています。

画像認識分野への応用

Transformer から Vision Transformer[4] や DETR[5] が生まれたように、Mamba も画像認識分野への応用研究も進んでいます。

例えば、物体検出分野だと、Mamba YOLO[6] などの研究が発表されています。

Illustraion of the ODSSBlock architecture
Mamba YOLO: A Simple Baseline for Object Detection with State Space Modelより

また、MambaNeXt-YOLO[7]では、従来の CNN と Mamba とのハイブリッド構成を提案しています。

局所的な特徴を掴むことが得意な CNN と、長距離の依存関係を掴むことが得意な Mamba とを組み合わせることで、リアルタイム・低リソース環境での高精度な物体検出を実現しました。

Illustration of the overall architecture of MambaNeXt-YOLO
MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object
Detection
より

これまでのアーキテクチャの完全な置き換えではなく、それぞれのメリットを組み合わせて活用が進んでいくでしょう。

まとめ

Mambaが画像認識の分野でも注目だ!

脚注
  1. Mamba: Linear-Time Sequence Modeling with Selective State Spaces ↩︎

  2. Attention Is All You Need ↩︎

  3. Codestral Mamba | Mistral AI ↩︎

  4. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ↩︎

  5. End-to-End Object Detection with Transformers ↩︎

  6. Mamba YOLO: A Simple Baseline for Object Detection with State Space Model ↩︎

  7. MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object
    Detection
    ↩︎

株式会社TechSword

Discussion