🙆

Microsoft Mu ：超小型専用AIエージェント用言語モデル

シンウフム(wooheum xin)

2025/06/25に公開

Microsoft Mu：330Mパラメータの NPU 小型モデル — Windows 11 Settings 専用 AI エージェント用 Mu 言語モデル。330M パラメータと聞いて、最初は「こんなに小さくて何ができるの？」と思ったが、調べてみるとなかなか面白いことが分かった。
アーキテクチャの逆襲：なぜ GPT に追従しないのか？

みんな decoder-only アーキテクチャで遊んでいる中、Microsoft は逆張りして encoder-decoder を採用。理由は単純：一度エンコードすれば、あとはデコードするだけで、従来方式と比べて最初のトークン遅延を 47% 削減、デコード速度を直接 4.7 倍向上させた。
Qualcomm NPU 向けに深度カスタマイズ：パラメータ分布は 2/3 エンコーダー + 1/3 デコーダー、重み共有で冗長性を削減、レイヤー次元を NPU 並列ユニットに合わせた。さらに 3 つの重要なアップグレードを追加：Dual LayerNorm で訓練の安定化、RoPE で長シーケンスの改善、GQA でキー・バリューの共有により遅延を削減。
訓練の秘技：Phi から学んだコツ

知識蒸留の正しい使い方：まず数千億の高品質トークンで事前訓練、次に Phi 大規模モデルから知識を蒸留、最後に 3.6M の Windows 設定サンプルで LoRA ファインチューニング。
結果は素晴らしい：1/10 のパラメータ量で、Phi-3.5-mini に近い性能、この圧縮比は本当にすごい。
性能実測：数字が物語る

NPU 上で 100-200+ tokens/秒で動作、遅延は 500ms 以下、基本的にリアルタイム応答を実現。ただしハードウェア要件も低くない：40 TOPS+ の NPU、現在は主に Qualcomm Snapdragon X シリーズをサポート。
実際の体験：専門性と精度

できること：「メインディスプレイの輝度を上げる」「システム音声をオフにする」「ダークモードに設定する」など数百のシステム設定機能、応答速度は飛ぶように速い。
できないこと：汎用対話は期待しないでほしい。330M パラメータという制約があり、専門的な作業をする道具として設計されている。
技術的な示唆：小型モデルの極限最適化

最後に：

大きいことが良いとは限らない：適切なアーキテクチャ + 専門最適化 > 暴力的なパラメータ積み上げ

ハードウェア適応が重要：NPU 向け最適化が質的な飛躍をもたらす

シナリオベースの展開がトレンド：すべての AI に汎用能力が必要なわけではない

エッジ AI が離陸中：ローカル展開の優位性がますます明らかに
ソース：
https://blogs.windows.com/windowsexperience/2025/06/23/introducing-mu-language-model-and-how-it-enabled-the-agent-in-windows-settings/

AcrosstudioテックブログPublication

Acrosstudio株式会社は、コンサルティング×生成AIスタートアップです。コンサルティング事業に加え、自社でのVLM, RAG, AI Agentのプロダクト開発、生成AI/AI Agent業務設計等を推進しています。上場企業元CTOや、GAFA出身の生成AIエンジニアを中心に技術発信も行っていきます。

Discussion