💬

Mercury Coderは本当にLLaDAモデルなのか?

に公開

はじめに

今年の2月14日に発表されたLLaDA論文を皮切りに、2月28日には初の商業モデルとしてMercury Coderが公開されました。さらに4月2日にはDream7Bも発表され、拡散言語モデル(DLM)が徐々に注目を集めつつあります。

Mercury Coder
LLaDA
Dream7B

Mercury Coderは本当にLLaDAモデルなのか?

調べていると「Mercury CoderはLLaDAと同じモデルと考えられる」と書かれている記事が多い一方、よく調べていくと実は別物なのでは?という疑念が湧いてきました。そこで、以下の2点から整理してみました。

  1. Mercury CoderとLLaDAの論文から見る技術的な違い
  2. Mercury Coderが「LLaDAと同じモデル」と言われる出どころはどこか?

1. Mercury CoderとLLaDAに関係する論文

まずは関係者から

Mercury CoderはInception labsによって開発され、この会社の共同創業者はStefano Ermon(スタンフォード大学), Aditya Grover(UCLA), Volodymyr Kuleshov(コーネル大学) の3名です。

githubやarXivで名前を検索してヒットした論文をリストアップ

The Diffusion Duality
[2107.03006] Structured Denoising Diffusion Models in Discrete State-Spaces
[2211.15029] DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models
[2212.09748] Scalable Diffusion Models with Transformers
[2302.05737] A Reparameterized Discrete Diffusion Model for Text Generation
[2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
[2406.03736] Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data
[2406.04329] Simplified and Generalized Masked Diffusion for Discrete Data
[2406.07524] Simple and Effective Masked Diffusion Language Models
[2410.06264] Think While You Generate: Discrete Diffusion with Planned Denoising
[2410.18514] Scaling up Masked Diffusion Models on Text
[2410.21035] Beyond Autoregression: Fast LLMs via Self-Distillation Through Time
[2412.10193] Simple Guidance Mechanisms for Discrete Diffusion Models
[2503.09573] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
Simple and Effective Masked Diffusion Language Models
レポート:Mercury: Ultra-Fast Language Models Based on Diffusion
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models | OpenReview
ICLR 2021 Score-Based Generative Modeling through Stochastic Differential Equations Oral
ICML Poster Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
NeurIPS Poster Simple and Effective Masked Diffusion Language Models

The Diffusion Duality

この中で3月6日に公開されたThe Diffusion Duality | OpenReviewでは複数のDLMの性能を評価している。

  • SEDD(Score Entropy Discrete Diffusion model)共著者にErmon
  • MDLM(Masked Diffusion Language Model)共著者にKuleshov
  • UDLM(Uniform Diffusion Language Model)共著者にKuleshov
  • DUO(本論文)共著者にKuleshov
    ※Ermon、KuleshovはInception Labsの共同創業者
    紹介されている論文は全てInception Labs関係者の論文であり、複数のDLMを研究していることから、DLMに力を入れていることがわかります。また、Transformerモデルには負けているものの、どのDLMもそれなりの精度は出ているようです。
    ちなみに、The Diffusion Dualityではガウス空間の潜在変数を離散空間の潜在変数として利用するモデルで、サンプリングステップを二桁削減出来たことを強調しています。

Block Diffusion

次にMercury Coderのデモ動画を見てみましょう

ここで注目したいのが、Mercury Coderの生成が左から右に順番に行われている点です。本来、DLMは拡散モデルなので並列生成ができるはずですが、AR(自己回帰モデル)のように見えます。これはBlock Diffusionの手法を使っているためと考えられます。
[2503.09573] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

下記の図がわかりやすいですが、DLMの欠点として、拡散モデルなので固定長であること、TransformerではないのでKVキャッシュが効かないことがありました。

これらの欠点を解決するため、この手法では「ブロック単位でDLMによる予測を行い、完了したら次のブロックを生成する」流れになっています。
デモをもう一度頑張って見るとブロックが作られていることがわかると思います。
この特徴が、Mercury Coderのデモ動画にも現れており、Mercury CoderはDLMとARを組み合わせたハイブリッドモデルだと考えられます。

一方で、Mercury Coderのコード生成デモ動画ではブロックは作られず、純粋な拡散モデルっぽいのは不思議なところです。

Mercury Coderのデモ動画を分割














ちなみにこの論文も共著者にKuleshovさんがいます。

LLaDAのモデルについて

LLaDAは論文内でMDLMを採用し、Bidirectional Transformerを用いていることを明言しています。そして、上述のBlock Diffusionを採用していることも書かれています。(論文内ではsemi-auto-encoderと表現)

ちなみにSahooさん(Kuleshovさんのグループの一人)がNvidiaで講演した際の資料では以下のようにLLaDAに言及しています。

つまり、LLaDAは私の論文をたくさん引用しているよってことですね。

ここまでのまとめ

Mercury Coder:モデルは公式未発表だが、デモ挙動・共著論文からBlock Diffusion採用はほぼ確定。
Step数の少なさからDUOベースの可能性も考えられるが、コードデモではMDLM的な動きも見られる。
LLaDA:MDLM+Bidirectional Transformer+Block Diffusion

2.なぜMercury CoderはLLaDAモデルと呼ばれている?

結論として、この記事が発端と思われます。
New AI text diffusion models break speed barriers by pulling words from noise - Ars Technica
根拠としては記事がMercury Coderの発表日と同じ2月28日に公開されているためです。
この記事ではMercuryはLLaDAと同じmask-baseだとはっきり書かれています。しかし、2025/05/05現在Mercury Coderは詳細なモデルについて公開していません。
記事が正しいとすれば、記者が発表前に内部情報を持っていたことになります。

結論

現状、確定はできない。
しかし、Mercury CoderをLLaDAモデルと呼ぶ根拠は弱く、別モデルの可能性も十分に考えられるというのが現時点の整理です。

個人的には別モデルだと思っているので、今後の新情報に期待しつつ、引き続き動向を追っていきたいと思います!

Discussion