📖

LLMとSLM調べてみた

に公開

LLMとSLM調べてみた

書いた理由

最近SLMという言葉をよく見かけるようになりました。最初はオフライン用とかオンプレミス環境向けの技術だと思っていました。社内データを外に出したくない企業向けかなと。

調べてみたらそれだけではありませんでした。AIエージェントの分野でSLMの方がLLMより効率的という話があって、これは驚きました。備忘録として残しておきます。

参考文献:

エージェント時代の主役はLLMではなくSLM!NVIDIA論文で読み解く“4つの理由” | Singular Radio #21
https://www.youtube.com/watch?v=Z6pJCGKRLPE

AIエージェントって何?

調べる過程でAIエージェントという概念が出てきました。簡単に言うと、人間の代わりに色々なソフトを操作して仕事をしてくれるAIのことです。

例えば:

  • メールをチェックして
  • Excelでデータをまとめて
  • 報告書を作って送信する

といった一連の作業を自動でやってくれます。

ChatGPT:「質問したら答えてくれる」AI
AIエージェント:「作業を代わりにやってくれる」AI

この違いが重要なポイントになります。

身近なSLMの例:Googleピクセル

実は、私たちの身近にもSLMは存在しています。一番分かりやすいのはGoogleのPixel 10 スマートフォンです。

PixelにはGemini Nanoという小さなAIが内蔵されていて、Recorder要約など代表的なオンデバイス機能があります※1。これがまさにSLMの実用例です。

従来のスマホAI:クラウド(ネット経由)でAI処理
PixelのSLM:端末内でAI処理を完結

スマホの中で動く小さなAIですが、日常使いには十分な性能を発揮しています。

LLM vs SLM 基本理解

LLM(大規模言語モデル)

  • 特徴:とにかく巨大なAI(GPT-4、Claude、Geminiなど)
  • 得意:何でもできて会話も上手
  • デメリット:動かすのにお金と電力がかかる

SLM(小規模言語モデル)

  • 特徴:LLMより小さいAI(Phi-3、Gemma、Qwenなど)
  • 得意:特定の作業に特化
  • メリット:普通のパソコンやスマホでも動く

NVIDIAのポジションペーパーの内容

NVIDIA Researchチーム(2025年)が「Small Language Models are the Future of Agentic AI」というポジションペーパーを発表しました。これは実証研究ではなく、著者らの立場表明・議論を展開した文書ですが、その主張が興味深いです。

SLMとLLMの作業定義

英語原文:

A SLM is a LM that can fit onto a common consumer electronic device and perform inference with latency sufficiently low to be practical when serving the agentic requests of one user.

日本語訳:
SLMとは、一般的な消費者向け電子機器に収まり、1人のユーザーのエージェント要求に応える際に実用的な低遅延で推論を実行できる言語モデルです。

わかりやすく言うと:
普通のスマホやPCで動いて、AIエージェントの作業をサクサク処理できる小さなAIのこと。

補足情報:

We note that as of 2025, we would be comfortable with considering most models below 10bn parameters in size to be SLMs.

日本語訳:
2025年時点では、100億パラメータ以下のモデルをSLMと考えています。

わかりやすく言うと:
100億パラメータ以下がSLM、それより大きいのがLLMという基準です。

NVIDIAの3つの主張

英語原文:

We contend that SLMs are

V1 principally sufficiently powerful to handle language modeling errands of agentic applications;

V2 inherently more operationally suitable for use in agentic systems than LLMs;

V3 necessarily more economical for the vast majority of LM uses in agentic systems than their general-purpose LLM counterparts by the virtue of their smaller size;

日本語訳:
私たちは、SLMが以下であると主張します:

  • V1:エージェントアプリケーションの言語モデリング業務を処理するのに基本的に十分強力である
  • V2:LLMよりもエージェントシステムでの使用に本質的により運用適性がある
  • V3:小さいサイズという特性により、エージェントシステムでのLM使用の大部分において、汎用LLMよりも必然的により経済的である

わかりやすく言うと:

  1. 能力十分:AIエージェントの仕事はSLMで十分できる
  2. 使いやすい:AIエージェントにはSLMの方が向いている
  3. 安い:SLMの方が圧倒的にコストが安い

AIエージェントの作業特性の重要な指摘

英語原文:

While LLMs offer impressive generality and conversational fluency, the majority of agentic subtasks in deployed agentic systems are repetitive, scoped, and non-conversational—calling for models that are efficient, predictable, and inexpensive.

日本語訳:
LLMは印象的な汎用性と会話の流暢さを提供しますが、実際に展開されたエージェントシステムでのエージェント的サブタスクの大部分は、反復的で、範囲が限定されており、会話的ではありません。これは効率的で、予測可能で、安価なモデルを求めているのです。

解釈
AIエージェントがやる仕事の大半は:

  • 反復作業:同じような処理の繰り返し
  • 限定的:決まった範囲での作業
  • 大半は非会話的:人間との対話を必要としない場合が多い

だから、「何でもできる」LLMより「特定作業が得意で安い」SLMの方が向いているのかなと。

効率性の具体的数値

英語原文:

Serving a 7bn SLM is 10–30× cheaper (in latency, energy consumption, and FLOPs) than a 70–175bn LLM, enabling real-time agentic responses at scale

日本語訳:
70億パラメータのSLMの提供は、700-1750億パラメータのLLMよりも、レイテンシ、エネルギー消費、FLOPsにおいて10-30倍安価であり、大規模なリアルタイムエージェント応答を可能にします。

つまり:(論文3.2節 "Inference efficiency"より)

  • レイテンシ:10-30倍低い(低遅延)
  • 電力消費:10-30倍少ない(省エネ)
  • 計算コスト:10-30倍安い

これはかなりの差だと思いました!

レゴブロック戦略の提案

英語原文:

The above-mentioned "Lego-like" composition of agentic intelligence—scaling out by adding small, specialized experts instead of scaling up monolithic models—yields systems that are cheaper, faster to debug, easier to deploy, and better aligned with the operational diversity of real-world agents.

日本語訳:
上記の「レゴのような」エージェント知能の構成—一体型モデルをスケールアップするのではなく、小さな専門エキスパートを追加してスケールアウトする—は、より安価で、デバッグが速く、デプロイしやすく、実世界エージェントの運用多様性により適合したシステムを生み出します。

レゴブロック戦略とは:(論文3.2節のモジュール設計より)

  • 従来:巨大な万能AI1つ
  • 新提案:小さな専門AI複数をレゴのように組み合わせ

メリット:

  • 安い
  • バグ修正が早い
  • 導入しやすい
  • 実際の仕事に合わせやすい

付録Bのケーススタディでの推計

NVIDIAは3つの人気AIエージェントで分析を行いました:

MetaGPT(ソフトウェア開発エージェント)

In the case of MetaGPT, we estimate that about 60% of its LLM queries could be reliably handled by appropriately specialized SLMs.

日本語訳: MetaGPTの場合、LLMクエリの約60%が適切に専門化されたSLMで確実に処理できると推定します。

Open Operator(ワークフロー自動化エージェント)

In the case of Open Operator, we estimate that about 40% of its LLM queries could be reliably handled by appropriately specialized SLMs.

日本語訳: Open Operatorの場合、LLMクエリの約40%が適切に専門化されたSLMで確実に処理できると推定します。

Cradle(GUI操作エージェント)

In the case of Cradle, we estimate that about 70% of its LLM queries could be reliably handled by appropriately specialized SLMs.

日本語訳: Cradleの場合、LLMクエリの約70%が適切に専門化されたSLMで確実に処理できると推定します。

ケーススタディの結論: 推計では、現在LLMでやっている作業の40-70%がSLMで代替可能とされています。

ハイブリッド戦略の推奨

英語原文:

Moreover, in cases where general reasoning or open-domain dialogue is essential, we advocate for heterogeneous agentic systems, where SLMs are used by default and LLMs are invoked selectively and sparingly.

日本語訳:
さらに、一般的な推論や開領域での対話が必要な場合は、SLMをデフォルトで使用し、LLMを選択的かつ控えめに呼び出すヘテロジニアスなエージェントシステムを提唱します。

つまり:

  • 基本:SLMを使う
  • 難しい判断:必要な時だけLLMを呼ぶ
  • 結果:コスト削減しながら高性能を維持

自分でも試してみた

実際にLM StudioでQwenというSLMを試してみました。

セットアップ:1時間くらい
日本語対応:ちゃんと使える
動作環境:完全に自分のPC内
追加費用:なし

Pixelのような端末内蔵AIほどではありませんが、個人PCでも十分実用的でした。

まとめ:認識の大転換

当初の理解 vs 現実

当初:「SLM = プライバシー重視の企業向け技術」

現実:「SLM = AIエージェントでは性能的・経済的に優れている技術」

プライバシー保護は副次的なメリットで、本質はパフォーマンスの優位性でした。

使い分けの現実的予測

現在(2025年)

  • 一般会話・創作:最上位LLMがまだ優位な場面が多い
  • 作業自動化:SLMで十分(しかも安くて速い)

近未来の予想

  • 個人利用:当面LLMが中心
  • 企業自動化:SLMが急速に普及
  • モバイル:Pixel型の端末内蔵SLMが標準化
  • 最終形:「基本SLM、必要時LLM」のハイブリッド

まとめ

NVIDIAの主張が正しければ、AIの世界も「適材適所」の時代に入りつつあるということになります。今後この議論がどのように発展していくか注目したいかなと思っています。


参考文献

  • Belcak, P., Heinrich, G., Diao, S., Fu, Y., Dong, X., Muralidharan, S., Lin, Y. C., & Molchanov, P. (2025). Small Language Models are the Future of Agentic AI. arXiv preprint arXiv:2506.02153v2. https://arxiv.org/html/2506.02153v2

  • エージェント時代の主役はLLMではなくSLM!NVIDIA論文で読み解く“4つの理由” | Singular Radio #21
    https://www.youtube.com/watch?v=Z6pJCGKRLPE

Discussion