国産LLMは作れるのか? - RakutenAI 3.0の炎上から考える
はじめに
2026年03月17日、楽天グループが「国内最大規模」と謳う大規模言語モデル(以下、LLM)「Rakuten AI 3.0」を発表しました。約7000億パラメータのMoE(Mixture of Experts)モデルで、日本語ベンチマークではGPT-4oを上回るスコアを記録したといいます。
しかし公開直後、Hugging Face上のconfig.jsonに"model_type: "deepseek_v3"という記述が見つかり、ベースモデルがDeepSeek V3であることが判明。さらに初回公開時にはDeepSeek由来のMITライセンスファイルが含まれておらず、炎上後に「NOTICE」ファイルとして追加される経緯もありました。
GENIACプロジェクト(経済産業省・NEDO)の補助を受けた「国産AI」がDeepSeek V3ベースだったこと、そしてその出自が積極的に明示されていなかったことが批判の核心でした。
この記事では、この騒動をきっかけに「そもそもファインチューンとは何か」「なぜ1から国産LLMを作るのは難しいのか」「現実的にはどんな手法があるのか」を整理してみます。
用語解説
-
パラメータ:AIモデルの重みのこと。学習によって調整される数値の集合で、モデルの賢さや能力を決める要素です。「175億パラメータ」のように規模の指標として使われます。数が多いほど表現力が高い傾向があります。 -
MoE(Mixture of Experts)モデル:モデル内部に複数の専門家(Expert)ネットワークを持ち、入力に応じて一部だけを活性化するアーキテクチャです。全パラメータを毎回使わないため、総パラメータ数は大きくても推論コストを抑えられるのが特徴です。DeepSeek V3やGrok, Mistralなどに採用されています。 -
ベンチマーク:モデルの性能を比較・評価するための標準的なテスト群です。HumanEval(コード生成)、MMLU(知識・推論)、GSM8K(数学)などが有名です。ただしベンチマーク特化の過学習もあり、数学だけで判断するのは注意が必要です。 -
Hugging Face:AIモデルやデータセットを共有・配布するプラットフォームです。GitHubのAI版に近いイメージです。transformersライブラリも提供しており、モデルのダウンロードや推論コードが簡単に書けます。 -
config.json:HuggingFaceのモデルリポジトリに含まれる設定ファイルです。モデルのアーキテクチャ情報(レイヤー数、隠れ層の次元数、Expertの数など)が記載されており、モデルの内部構造を確認するときに参照します。 -
DeepSeek V3:中国のDeepSeek社が開発したオープンウェイトのLLMです。MoEアーキテクチャを採用し、総パラメータ数は約6710億、実行パラメータは約370億です。GPT-4oやClaude3.5に匹敵するとされ、低コストで開発された点が話題になった。 -
MITライセンス:オープンソースライセンスの1つで、最も制限が緩い部類です。商用利用・改変・再配布がすべて自由で、著作権表示とライセンス文を残すだけでOKです。DeepSeekなど多くのオープンモデルが採用しています。 -
NOTICEファイル:ソフトウェアのリポジトリに含まれる、著作権・ライセンスに関する告知ファイルです。サードパーティライブラリの帰属情報などが書かれていることが多く、MITライセンスの「著作権表示を残す」義務を果たすために参照・転載する必要がある場合があります。
ファインチューンは「ズル」なのか
まず前提として、ファインチューン自体は普通の技術です。Llama(Meta)やQwen(Alibaba)といったオープンソースモデルをベースに、特定の言語やタスクに合わせて追加学習を行うのは、世界中の研究者・企業が日常的にやっていることです。日経新聞の報道によれば、日本企業の主要モデルのうち約6割がDeepSeekやQwenをベースにした2次開発だといいます。
今回の問題は「ファインチューンしたこと」ではなく、以下の2点に集約されます。
- 透明性の欠如:プレスリリースでは「オープンソースコミュニティ上のモデルを基に」としか描かれず、ベースモデル名が明示されなかった
- ライセンス対応の不備:DeepSeek V3のMITライセンスが初回公開時に含まれておらず、指摘後に追加された
つまり「何をベースに」「何をしたか」を明示していれば、ここまでの炎上にはならなかったはずです。
用語解説
-
ファインチューン:事前学習済みのモデルに対して、特定のタスクやデータで追加学習を行うことです。1から学習するより少ないデータ・コストで特定用途に特化させられる。「医療文書に強いモデル」「日本語対応モデル」などを作るときに使われる手法です。 -
Llama:Meta(旧Facebook)が公開しているオープンウェイトのLLMシリーズです。Llama2, Llama3と世代を重ねており、商用利用も(条件付きで)可能です。オープンモデルのデファクトスタンダード的な存在で、多くのファインチューン派生モデルのベースになっています。 -
Qwen:中国のAlibaba(阿里巴哥)が開発・公開しているLLMシリーズです。Qwen2, Qwen2.5など継続的にアップデートされており、多言語対応(日本語含む)が比較的強いのが特徴です。コードやMath特化の派生モデルも存在します。MITライセンスで公開されているものも多く、ファインチューンのベースとして人気です。 -
追加学習:ファインチューンとほぼ同義で使われます。講義には、学習済みモデルに対して新たなデータや知識を吸収させる操作全般を指します。ファインチューンのほか、RLHF(人間のフィードバックによる強化学習)や継続事前学習(Continual Pre-training)なども含む文脈で使われることがあります。
なぜ1から日本語LLMを作るのは難しいのか
では、なぜ多くの日本企業がファインチューンに頼るのでしょうか?1からLLMをPre-trainingする場合、以下の3つの壁があります。
1. 計算コストが莫大
GPT-3クラス(1750億パラメータ)のモデルを1から学習する場合の規模感は以下の通りです。
| 項目 | 規模感 |
|---|---|
| GPU | A100を数百〜数千台 |
| 学習期間 | 数週間〜数ヶ月 |
| 推定コスト | 数十億〜数百億円 |
DeepSeek V3(6710億パラメータ)クラスになれば、さらに桁違いのリソースが必要になります。日本の一企業にはほぼ不可能な水準です。
2. 日本語データの絶対量が少ない
LLMの性能はデータの量と質に大きく依存します。しかし、インターネット上のテキストは英語が約46%を占めるのに対し、日本語は約5~6%程度しかない。高品質な日本語コーパスを十分な量確保すること自体が大きなボトルネックになる。
3. 人材不足
LLMのPre-trainingを設計・実行できるエンジニアは世界的に見ても希少です。分散学習の最適化、学習の安定化、データパイプラインの構築など、必要なスキルセットが非常に多いです。
それでも挑戦している国内の事例はいくつかあります。
| 組織 | モデル | 備考 |
|---|---|---|
| 東京大学・国立情報学研究所など | LLM-jp | 学術研究目的 |
| サイバーエージェント | OpenCALM | 日本語特化 |
| 理化学研究所 | 研究用モデル | 富岳を活用 |
ただし、これらは研究目的がメインで、ChatGPTやClaudeなどの商用モデルの性能にはまだ届いていないのが現状です。
用語解説
-
Pre-training:大量のテキストデータを使ってモデルをゼロから学習させるフェーズです。「次のトークンを予測する」タスクを膨大な規模で繰り返すことで、言語の構造や世界の知識を獲得します。膨大な計算資源が必要で、ファインチューンの土台になる部分。 -
A100:NVIDIAが製造するGPU(グラフィックボード)。AI学習用途では業界標準的な存在で、LLMのPre-trainingや推論に広く使われる。1枚数百万円クラスで、大規模学習では数百〜数千枚を並列使用する。現在はH100, H200などより新しい世代も登場している。 -
日本語コーパス:日本語のテキストデータの集合体です。Webクロールや書籍、ニュースやWikipediaなどさまざまなソースから収集されます。日本語LLMの性能はコーパスの質と量に大きく左右されるため、整備・選別が重要な研究課題になっています。 -
ボトルネック:システム全体の処理速度を決定的に制限している箇所のことです。AI学習の文脈では「GPUの演算速度よりデータの供給速度が遅くてGPUが遊んでしまう」「通信帯域が細くて分散学習が詰まる」といった状況を指すことが多いです。 -
分散学習:複数のGPU・マシンに処理を分割して並列で学習を進める手法。大きく「データ並列」(同じモデルを複数GPUで別データに適用)と「モデル並列」(巨大モデルを複数GPUに分割して載せる)がある。LLMのように単一GPUに乗り切らないモデルの学習には必須の技術です。 -
データパイプライン:生のテキストデータを収集、クリーニング、フォーマット変換、モデルに投入するまでの一連の処理フローです。重複除去、低品質フィルタリング、トークナイズなどが含まれます。パイプラインの設計がコーパスの品質に直結するため、Pre-trainingの重要な要素の1つです。 -
LLM-jp:国立情報研究所(NII)を中心とした日本の研究コミュニティが開発する、日本語に特化したオープンLLMプロジェクトです。日本語コーパスの整備から学習・評価まで一貫して取り組んでおり、モデルとデータセットを公開している。国産LLMの代表的な1つです。 -
OpenCALM:サイバーエージェントが開発・公開した日本語LLMシリーズです。比較的早い時期に日本語オープンモデルとして登場したことで注目されました。Hugging Faceで公開されており、日本語ファインチューンのベースモデルとして活用された実績があります。現在はより新しいモデル(LlamaやQwenベース)に主役を譲りつつあります。
現実的な手法:コストを抑えて日本語モデルを開発するには
1からの開発が難しいなら、既存のオープンソースモデルを活用しつつコストを抑える手法を検討することになります。以下、学習を伴う手法について順に解説します。
1. 継続事前学習(Continual Pre-Training:CPT)
Llamaなど英語で高い性能を持つベースモデルに対し、日本語テキストを追加で学習させる手法です。モデルが英語で獲得した知識や推論能力を保ちながら、日本語の処理能力を大幅に向上させることができます。
1から作るよりも圧倒的にコストが低く、日本語性能を大きく改善できるため、実用上は非常に有力な選択肢です。Rakuten AI 3.0もこのアプローチに近いと考えられます。
2. LoRA/QLoRA(Low-Rank Adaptation)
モデル全体のパラメータを更新するのではなく、小さな差分行列だけを学習する手法です。
| 項目 | Full Fine-tuning | LoRA/QLoRA |
|---|---|---|
| 必要なGPU | A100×数十台 | RTX3090 1台でも可能 |
| コスト | 数千万円〜 | 数万円〜 |
| 学習パラメータ | 全パラメータ | 全体の1%以下の場合も |
| 性能 | ベスト | 実用上はほぼ同等 |
QLoRAはさらにモデルの量子化(4bitなど)を組み合わせることでメモリ使用量を削減し、より小さなリソースで学習を可能にします。
3. データ効率を上げる工夫
データの量が限られるのなら、質で勝負するアプローチもあります。
- 高品質な日本語データソースの活用
- Wikipedia日本語版、青空文庫、国会議事録、CiNii論文など、品質が担保されたデータに絞ることで、大量の低品質データよりも良い結果が得られることがあります。
- 合成データの活用(Self-Instruct / Alpacaアプローチ)
- GPT-4などの高性能モデルに日本語の学習データ(QAペアや指示応答など)を生成させ、それを使ってLoRA学習を行う方法。少ない実データしかなくても、効率的にモデルの指示追従能力を高められます。
4. 軽量モデルをベースにする
すべてのユースケースで巨大モデルが必要なわけではありません。小規模モデルに日本語LoRAを適用するだけでも、特定のタスクでは実用レベルに達することがあります。
| モデル | パラメータ数 | 特徴 |
|---|---|---|
| Llama 3.2 | 1B/3B | 超軽量、ローカル動作可能 |
| Gemma 3 | 4B~ | Googleの軽量モデル |
| Qwen 2.5 | 0.5B~ | 日本語も比較的得意 |
5. クラウド活用でインフラコストを削減
自前でGPUを用意しなくても、クラウドサービスを使えば個人や小規模チームでも学習が可能です。
| サービス | 特徴 |
|---|---|
| Google Colab Pro | 月額約1500円〜、A100も利用可能 |
| Lambda Labs | 時間課金、安価なGPUクラウド |
| Vast.ai | 格安GPU市場 |
用語解説
-
差分行列:LoRA(Low-Rank Adaptation)などのファインチューン手法で登場する概念です。元のモデルの重み行列を直接書き換えるのではなく、「変化分だけ」を小さな行列の積で表現して学習します。元の重みは凍結したままなので、学習パラメータ数を大幅に削減できます。「差分だけ保存して配布する」使い方もできるため、モデル共有の文脈でも登場します。 -
RTX 3090:NVIDIAのコンシューマー向けGPU(GeForce RTXシリーズ)の1つです。VRAMが24GBと民生品の中では大きく、個人・研究者が自宅でLLMを動かしたりファインチューンするのに使われる定番のGPUです。A100には遠く及ばないが、価格帯が現実的なため個人用途では人気が高いです。後継のRTX 4090(VRAM 24GB)も同様の立ち位置です。 -
量子化:モデルの重みを表現するビット数を減らすことで、メモリ使用量と推論速度を改善する技術です。通常のfloat32(32ビット)やfloat16(16ビット)から、int8(8ビット)やint4(4ビット)に圧縮することが多いです。精度はわずかに落ちますが、VRAMの少ない環境でも大きなモデルを動かせるようになります。GGUF形式やBitsAndBytesライブラリがよく使われます。 -
Vast.ai:GPUをクラウドで時間貸しするマーケットプレイスです。個人・企業が余ったGPUを出品し、利用者が借りる形式なのでAWSやGCPより安価なことが多いです。A100やH100なども比較的安く借りられるため、LLMのファインチューンや推論を一時的に回したい時に使われます。セキュリティや安定性はクラウド大手より劣る点は注意です。
おわりに
結論から言えば、フルスクラッチで世界トップレベルの基盤モデルを作るのは、現時点の日本の資本・計算資源・データ量では極めて難しいです。
しかし、オープンソースモデルをベースにCRTやLoRAで日本語最適化を行い、日本語特有のドメイン知識や世界的な理解を組み込むことは十分現実的なアプローチです。
今回のRakutenAI 3.0の騒動が示したのは「ファインチューニングがダメ」ということではなく、「何をベースに」「何をしたか」を透明にすべきということでした。DeepSeek V3を使ったこと自体は技術的に真っ当な判断であり、日本語最適化で高い性能を達成したことも事実です。足りなかったのは技術ではなく、透明性でした。
Discussion
ものすごくわかりやすかったです。何が問題で、どうしたらよいのか?そしてなぜあんなに短期間でRakuten AIができたのかよくわかりました。助かりました!