画像生成AIの技術でテキストが爆速生成!Gemini Diffusionの革命
はじめに
「Stable Diffusion って画像生成 AI だよね?それと同じ仕組みがテキスト生成でも使えるの?」
そんな疑問を持った方も多いかもしれません。2025 年 5 月 20 日(米国時間)の Google I/O 2025 で、GoogleDeepMind が発表した「Gemini Diffusion」は、Stable Diffusion などの画像生成 AI で使われている「拡散モデル(Diffusion Model)」という仕組みを、テキスト生成に適用した革新的な言語モデルです。
Gemini Diffusion のイメージは以下のような感じです。
重要なのは、Stable Diffusion そのものを使っているわけではなく、同じ「拡散モデル」という原理を、「テキスト生成用に新たに実装した」という点です。
この記事では、「なぜ画像生成と同じ仕組みがテキストでも使えるのか」「どんなメリットがあるのか」を、具体的な例えを使いながら解説していきます。
拡散モデルの仕組みを画像とテキストで比較
画像生成での拡散モデル(Stable Diffusion 等)
まず、Stable Diffusion などの画像生成 AI がどうやって動いているか見てみましょう。
【Stable Diffusionの画像生成プロセス】
プロンプト: "富士山の朝焼け"
↓
Step 1: 完全なノイズ画像(テレビの砂嵐みたいな状態)
Step 2: ぼんやりと山の形が見える
Step 3: 富士山のシルエットが分かる
Step 4: 空の色が朝焼けっぽくなる
Step 5: 細部まで美しい富士山の朝焼け画像が完成!
つまり、ノイズから始めて少しずつ「それっぽく」していくのが拡散モデルです。
じゃあ、テキスト生成ではどうなる?
Gemini Diffusion は、この「ノイズから徐々に完成形へ」というアイデアをテキストに応用しました。
【Gemini Diffusionのテキスト生成プロセス】
プロンプト: "今日の天気について教えて"
↓
Step 1: あいうえお天気ランダム文字列です(完全にめちゃくちゃ)
Step 2: 今日のあいう天気はえおかきく(少し単語が見える)
Step 3: 今日の天気は晴れときどき(だいぶ文章っぽくなった)
Step 4: 今日の天気は晴れ時々曇りです。(完成!)
従来の LLM(GPT など)との違いを料理に例えると
従来の LLM = 一品ずつ順番に作る料理人
GPT や Claude などの従来型モデルは、こんな感じで動いています。
シェフ「まず前菜を作って...」
↓ 完成
シェフ「次にスープを作って...」
↓ 完成
シェフ「メインディッシュを...」
↓ 完成
シェフ「最後にデザートを...」
「一つ一つ順番に」作るので、コース料理を出すのに時間がかかります。
Gemini Diffusion = 複数の料理を同時進行で作る厨房
一方、Gemini Diffusion はこんな感じです。
料理人A「前菜の下ごしらえ開始!」
料理人B「スープも同時に仕込むよ!」
料理人C「メインの肉も焼き始めるね!」
料理人D「デザートの準備も進めちゃう!」
↓
全員「味見して調整...もう少し塩...火加減調整...」
↓
全員「はい、全部同時に完成!」
「並列処理」できるから、圧倒的に速い!これが「1,479 トークン/秒 」という驚異的な速度の秘密です。
拡散モデルがテキスト生成にもたらす 3 つのメリット
爆速生成(並列処理の恩恵)
画像生成の拡散モデルが複数のピクセルを同時に処理するのと同じように、Gemini Diffusion は複数の単語を同時に生成できます。
エンジニアの方がわかりやすいようにコードで表現すると、以下のようなイメージです。
// 従来のLLM(逐次処理)
async function generateTextSequentially(prompt: string): Promise<string> {
const words: string[] = [];
let context = prompt;
while (!isComplete(context)) {
const nextWord = await generateNextWord(context);
words.push(nextWord);
context += " " + nextWord;
}
return words.join(" ");
}
// Gemini Diffusion(並列処理)
async function generateTextDiffusion(prompt: string): Promise<string> {
// 全ての単語を同時に生成・改善
const tokens = await generateAllTokensSimultaneously(prompt);
return tokens.join(" ");
}
全体を見ながら作る(全体最適化)
画像の拡散モデルが「全体の構図」を考えてから細部を描くのと同様に、Gemini Diffusion も全体を見ながら生成します。
従来の LLM
「今日は」→「晴れ」→「です」→「明日は」→「雨」→「かも」
(前の単語しか見ていない)
Gemini Diffusion
「今日は晴れです。明日は雨かもしれません」
(最初から全体の流れを考えている)
生成しながら修正(反復的な改善)
画像の拡散モデルが段階的に画像を改善していくように、Gemini Diffusion もテキストを段階的に改善します。
初期生成: 「今日の天気は雨でした」
↓ あれ?現在形にしたい
修正Step1: 「今日の天気は雨です」
↓ やっぱり晴れだった
修正Step2: 「今日の天気は晴れです」
生成途中でエラーに気づいて自己修正できるんです!
こんな使い方ができそう!
リアルタイムコーディング
ユーザー: 「TypeScriptでクイックソート書いて」
Gemini: (0.84秒後)「はい、完成です!」← 爆速!
文章のリアルタイム校正
入力: 「今日わ天気が良いですた」
↓ リアルタイムで修正
出力: 「今日は天気が良いでした」
対話的な文章編集
ユーザー: 「もっとフォーマルに」
Gemini: (全体を見直して)「本日は晴天に恵まれました」
まとめ:拡散モデルがテキスト生成の世界を変える!?
Gemini Diffusion は、画像生成で大成功を収めた「拡散モデル」という仕組みを、テキスト生成の世界に持ち込んだ革新的な試みです。
まだ実験段階ですが、この技術が普及すれば、私たちの AI との付き合い方も大きく変わるかもしれません。画像生成における拡散モデルの成功が「誰でも簡単に美しい画像を作れる時代」を作ったように、Gemini Diffusion は「誰でも簡単に高品質なテキストを爆速で生成できる時代」を作るかもしれません。
現在はウェイトリスト登録制ですが、ぜひ試してみたいですね!
Discussion