Galirage Inc.
🧠

大規模言語モデルの次が来る?Meta発「LCM」とは【概念ベースのAI:Large Concept Model】

はじめまして、ますみです!

株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^

自己紹介.png

本日は、Meta(Facebook)傘下の研究所であるFAIR(Fundamental AI Research)が提案し、注目を集める「LCM(Large Concept Model)」について解説します。

LCMとは?LLMとの違いは?

LCMとは、Large Concept Modelの略で、従来のLLM(Large Language Model)とは異なるアーキテクチャを持つ自然言語処理モデルです。

日本語だと、「大規模言語モデル(LLM)」に対して、「大規模概念モデル(LCM)」になります。

LCMは、Meta社によって、2024年12月11日に発表された「Large Concept Models: Language Modeling in a Sentence Representation Space」という論文で提案されました。

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

  • LLM(従来):次の「単語(Token:トークン)」を予測する
  • LCM(新規):次の「文やアイデア(Concept:概念)」を予測する

この違いが、LCMの特徴であり、文やアイデアのまとまりを一つの概念という単位として扱うという点が大きなポイントです。

トークンについてわからない場合は、下記の記事をご参照ください。
https://zenn.dev/umi_mori/books/chatbot-chatgpt/viewer/what_is_token

従来の大規模言語モデル(ChatGPTなどのLLM)は、文章を「トークン」に分割し、「次の単語(トークン)は何か?」を予測する仕組みでした。たとえば「今日の天気は」を入力すると、「晴れです」「曇りです」「雨です」…といった次の単語を確率的に予測します。

これはこれで高い精度を出してきましたが、どうしても単語ベースの処理に集中するため、文章全体の構造やアイデアそのもの(概念)をどれだけ把握しているかという観点だと、課題がありました。

一方、LCMは文章を「概念」としてまとめて捉えます。「概念」とは、1文や1セクションなど、ひとまとまりの意味に対応します。

この違いは非常に大きく、人間の思考により近いアプローチと言われます。「この文章全体では何を言いたいのか?」「次にくるアイデアはどういう内容なのか?」を大きなかたまりとして扱うので、文章全体を見渡して流れを組み立てるのが得意だと考えられています。

LCMの仕組み(概念図)

ここからMeta社の論文のFigureなどを引用しながら、LCMの概念図(アーキテクチャ)を見ていきましょう。

左図は「概念空間でどんなふうに要約や推論をするか」、右図は「入力された単語をエンコード→LCM→デコードで出力する一連の流れ」を示しています。


Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • 左図:潜在空間におけるコンセプトの可視化の様子

    • 文章中の文やアイデアが立体的な空間に配置され、線や色でつながっています。
    • たとえば「Tim wasn’t very athletic.」「He tried out for several teams.」などの文があり、結果的に「自分でトレーニングを始める」という要約に至る例が示される。
    • 文同士の関係から自然に要約(conceptual summary)が生まれるイメージです。
  • 右図:LCMアーキテクチャ

    • 入力の単語列(WORDS)から "Concept Encoder" によって、概念ベクトル(CONCEPTS)になります。
    • そして、LCMにより、次の概念ベクトルを予測(CONCEPTS)します。
    • それを "Concept Decoder" で再び単語列(WORDS)に変換して出力します。
    • Encoder/Decoderは固定されており(事前学習済み)、中央のLCMがメインで学習・推論を行う構造になっています。

より噛み砕いて説明すると、以下のようなフローで処理がされます。

  1. テキストや音声を文レベルで区切る(SaTなど)
  2. SONAR Encoderで文を多言語ベクトルに変換
  3. 連続ベクトル列をLCMに入れ、次のConceptを予測
  4. 出力ベクトル列をSONAR Decoderで再びテキストや音声に変換

ここまでの知識を踏まえて、改めて『LCMとLLMの主な違い』を表でまとめてみましょう。

LLM LCM
予測単位 トークン(単語) 文やアイデア(概念)
処理対象 単語ベース(主に英語中心) 概念ベース(多言語・音声対応)
思考プロセス 「単語レベル」での思考 「概念レベル」での思考
モデル構造 Decoder-onlyで次単語予測 Diffusionや量子化など、複数方式
長文処理 △ トークン列が長大になると、計算量大 ◎ 文単位の短いシーケンスでも長文処理が得意
多言語対応 △ 学習データに依存 ◎ SONARのエンコーダに依存(ゼロショットが可能)
ゼロショット △ 未知言語は苦手な場合多い ◎ SONARがあればゼロショットにも対応しやすい

特に、特筆すべきポイントは、多言語対応において、LLMの方がまだ精度の高いケースがあると思うが、これは、大量の学習データを使っていることに起因している。

一方で、LCMは、SONARの埋め込み空間を使うことで、多言語対応が可能となっている。

LCMの特徴

概念図を理解できたところで、LCMにおける大きな3つの技術的な特徴を整理してみましょう。

  1. SaT(Segment any Text)による分割
  2. SONARによる多言語・マルチモーダルへの対応
  3. 拡散モデル(Diffusion)や量子化モデル(Quantized)などのアプローチによる改善

これらの3つの手法について、詳しく解説していきます。

1. SaT(Segment any Text)による分割

LCMの周辺技術として、「SaT」というテキストや音声など、さまざまな形態の言語情報を適切に分割・扱う手法があります。

SaTとは、Segment any Textの略で、言語情報を「フレーズ(Phrase)」や「センテンス(Sentence)」などのまとまりに分割する技術です。

下図は、音声や翻訳文、歌詞など多種多様なテキストをフレーズごとに取り出す例です。


Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentationより引用

左側の吹き出しでは、以下のような文章データ(文字起こし文や歌詞など)があります。

  • they are the same don't believe me let's watch it again
  • Also gut. = All right. Alles Klar? = All right? Na also! = All right!
  • we just wanna see yaa everyday im shuffelin shuffelin shuffelin

これに対して、SaTを適用すると、以下のようにフレーズごとに分割されます。

  • they are the same, don't believe me, let's watch it again
  • Also gut. = All right, Alles klar? = All right?, Na also! = All right!
  • we just wanna see yaa, everyday i m shuffelin, shuffelin shuffelin

つまり、1文や1フレーズレベルで統一的に扱うためのSegmentation技術になります。

2. SONARによる多言語・マルチモーダルへの対応

LCMは、SONARと呼ばれる多言語対応の文埋め込み(sentence embedding)空間を使うのが特徴です。

SONARとは、Sentence-Level Multimodal and Language-Agnostic Representationsの略で、Meta社が2023年8月に発表した200言語・76言語音声を同じ空間にマッピングする技術です。

https://ai.meta.com/research/publications/sonar-sentence-level-multimodal-and-language-agnostic-representations/

これにより、英語・日本語・音声など 200言語・76言語音声 を同じ空間へマッピングしてしまうという仕組みが実現できます。


Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • 右図:テキストの埋め込み
    • 「Multilingual Text encoder/decoder」により、テキストをSONAR埋め込みする。
    • NLLBモデルを初期の重みとして利用し、翻訳などにもカバーしている。
  • 左側:音声の埋め込み
    • 「Speech encoders」で音声を処理し、同じSONAR埋め込みに写像する。
    • Teacher-student方式で、テキストモデルを教師役にして音声エンコーダを学習させる。

これにより、テキストも音声も「同じ文(sentence)の意味ベクトル」として扱え、LCMの入力として統一できるということになります。

3. 拡散モデルや量子化モデルなどのアプローチ

LCMは、拡散モデル(Diffusion)や量子化モデル(Quantized)など、さまざまなアプローチを取り入れて、概念ベースの生成を行っています。

  • 拡散モデル:画像生成などで使われる手法で、ノイズを加えてから取り除くことで、多様な生成を行う。
  • 量子化モデル:ベクトル(今回の場合、SONARベクトル)を離散化して扱う手法で、離散空間でのサンプリングや温度パラメータを使いやすくする。

これらのアプローチを組み合わせることで、多様な概念ベースの生成を実現しようとしています。

もう少しだけ詳細に踏み込みたいと思います。

Base-LCM

まず、Base-LCMとは、拡散モデルや量子化モデルを導入していない、一番ベーシックに「次の文のベクトル」をMSEで予測する手法です。

この手法で一見、うまくいきそうですが、単純にMSEを最小化しようとすると、複数の可能な文の平均ベクトルを出しがちで、創造性が低かったり、現象として翻訳がされづらくなったりする問題が検出されています。

Diffusion-based LCM

次に、Diffusion-based LCMでは、画像生成でも使われる拡散モデルを応用したLCMの手法です。

ものすごい簡単に説明すると、以下の2ステップで処理されます。

  1. 文ベクトルにノイズを加える(Forward)
  2. ノイズを除去して元の文ベクトルを取り戻す(Reverse)

この手順で多様な次文を生成しようとする試みです。
Classifier-Free Guidanceなどの手法も、論文ではうまく組み合わせており、多彩な生成をされるように工夫しています。

Quantized LCM

最後に、Quantized LCMは、SONARベクトルをさらに離散化(量子化)して扱う手法です。

離散空間で「トップkサンプリング(top_k)」や「温度パラメータ(temperature)」を使いやすい一方、SONARを厳密に量子化するのは技術的に難しく、まだ研究途上になります。

LLM各種との比較結果

次の表は、Metaが公表しているモデル比較結果です。

Gemini、GPT、Claude、Bloomなどと比較して、LCM-SONARが非常に多言語(テキストで200言語、音声で76言語)に対応していることがわかります。


Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • LCM-SONAR は Text Input/Output で200言語、Speechで76言語など、とても幅広い対応です。
  • 画像や動画などへの対応はまだ検討中の部分もあるが、ASL(手話)の実験的サポートなども興味深いポイントです。。

要約タスクのパフォーマンスの比較結果

LCMは「文レベル」での推論が強みなので、自然に要約タスク長文処理との相性がいいと考えられます。

下図は、CNN DailyMail や XSum などの要約データセットでの性能比較をまとめたものです。


Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • 上図:CNN DailyMailの比較結果

    • T5-3B、Gemma-7B-IT、Mistral-7B-v0.3-IT、Llama-3.1-8B-IT、Two-Tower-7B-IT(LCM系のモデル)などのモデルを比較しています。
    • R-L(ROUGE-L)や OVL-3、REP-4、CoLA、SH-4, SH-5 といった指標を用いています。
    • すべての指標で一番なわけではありませんが、Two-Tower-7B-ITも、十分競合するスコアを示しているのが分かります。
  • 下図:XSumの比較結果

    • 同じモデル群で、XSumデータセットを使った要約性能を比較しています。
    • Two-Tower-7B-ITは、より抽象的な要約を生成し、トークン重複が少ない一方で、流暢さがやや劣る場合があるという特徴が表れています。

長文(Long-context)要約の比較結果

LCMは文単位で処理するため、入力文書が長くても扱いやすい可能性があります。以下は、LCFO(Long Context and Form Output)という長い文脈を要約するタスクでの性能比較表です。

https://arxiv.org/abs/2412.08268

複数のモデルが何%の長さに縮めるか(5%, 10%, 20%など)を指定しながら要約した結果を示しています。


Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • WRは、Word Count Ratioの略で、生成文の単語数が元文の何%かを示します。
  • R-L(ROUGE-L)やOVL-3REP-4CoLA等の指標を比較しています。
  • Llama-3.1-8B-ITは、非常に高いROUGEを出すケースがある一方、Two-Tower-7B-ITは繰り返しが少ないなどの特徴が見られます(REP-4が繰り返しの少なさを示す指標)。

多言語要約へのゼロショット適用の比較結果

SONARにより、英語以外の言語でも概念空間が使えるため、LCMは学習していない言語でもゼロショットで要約や生成が可能とされています。

次のグラフは、XLSumという多言語要約ベンチマークで、いろいろな言語に対するROUGE-Lスコアを比較したものです。

Large Concept Models: Language Modeling in a Sentence Representation Spaceより引用

  • X軸には英語、ベトナム語、フランス語、ヒンディー語、アラビア語、タイ語、ウクライナ語…など多数の言語が並んでいます。
  • 青い棒(Two-Tower-7B-IT)と赤い棒(Llama-3.1-8B-IT)の比較が言語ごとに示され、LCMの方が英語および低リソース言語で比較的高いケースがあることが分かります。一方で、日本語を含むすべての言語で優位なわけではなさそうです。

著者コメント:LCMが描く「概念思考」の未来

  • 1. Context Trajectory(文脈の軌跡)
    従来のLLMも文脈を扱いますが、LCMは「文や意味ブロックのつながり自体」を明示的に追えるモデル構造。
    時系列的な概念の推移をより深くモデリングできれば、応用範囲が広がりそうです。

  • 2. Cache-Augmented Generation(CAG)との相性
    LCMは長い文脈を文ごとに処理するため、キャッシュで区切りやすい。
    途中までの概念をキャッシュしておき、必要なタイミングで再利用する設計は、人的な要約・抜粋のプロセスに近いと考えられます。

  • 3. 人間の思考プロセスに近い
    「次はこういう話をするだろう」と推測して、「じゃあこう返そう」と概念を組み立てる…実際に会話や文章を組むステップに似ています。
    単語レベルより上位の「文やアイデア」で推論する分、認知科学的にも興味深い方向性です。

まとめ

  1. LCM(Large Concept Model)は、文レベルの"概念"を単位として推論する新しいアーキテクチャ。
  2. SONARによる多言語・マルチモーダル対応の埋め込み空間を使うため、英語・日本語・音声などを一元的に扱いやすい。
  3. 要約や長文処理、他言語へのゼロショット対応などで有望。LLMのようなトークンレベル生成とは異なる味わいがある。
  4. 拡散モデルや量子化モデルと組み合わせ、多様性のある文ベクトル生成を実現しようとしている。
  5. まだ研究初期だが、今後の大規模モデル研究の1つの大きな流れとなる可能性がある。

おまけ:用語集

用語 説明
LLM(Large Language Model) GPTなど、次の「単語トークン」を予測する手法で構築された大規模言語モデル。
LCM(Large Concept Model) 次の「文レベルの概念」を予測する、新しいアーキテクチャ。MetaのFAIRが提案。
FAIR(Fundamental AI Research) Meta(Facebook)の研究機関。LCMの提案元。
SaT(Segment any Text) さまざまな形態の言語情報を適切に分割・扱う手法。LCMの周辺技術の1つ。
SONAR(Sentence-Level Multimodal and Language-Agnostic Representations) LCMで使われる、多言語・マルチモーダル対応のセンテンス埋め込み手法。最大200言語に対応。
拡散モデル(Diffusion) 画像生成などで有名な、ノイズ付加・除去で多様なサンプルを生成する技術。LCMにおいては次文生成へ応用。
量子化(Quantization) 連続値ベクトルを離散化し、トークン的に扱うことで制御やサンプリングをしやすくする技術。
XSum 多言語要約ベンチマーク。異なる言語での要約性能を比較するデータセット。
ROUGE-L 要約の評価指標の1つ。生成文と正解文の最長共通部分列の長さを元文の長さで割ったもの。
LCFO(Long Context and Form Output) 長い文脈を要約するタスク。LCMの長文処理性能を評価するベンチマーク。
ゼロショット 新たに学習・チューニングなしで直接推論すること。
CAG(Cache-Augmented Generation) コンテキストの中に、ドキュメントをあらかじめキャッシュとして入れておき、検索をしない生成手法。LCMの文脈処理と相性が良い可能性あり。

最後に

最後まで読んでくださり、ありがとうございました!
この記事を通して、少しでもあなたの学びに役立てば幸いです!

宣伝:もしもよかったらご覧ください^^

AIとコミュニケーションする技術(インプレス出版)』という書籍を出版しました🎉

これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。

かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

参考文献

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

https://arxiv.org/pdf/2406.16678

https://levelup.gitconnected.com/metas-large-concept-models-lcms-are-here-to-challenge-and-redefine-llms-7f9778f88a87

Galirage Inc.
Galirage Inc.

Discussion