🤖

Google AI Edge Gallery 完全ガイド:7つのユースケースをすべて解説

に公開

Google AI Edge Gallery 完全ガイド

Google AI Edge Gallery は、Googleが提供する実験的・オープンソースのアプリで、最新の生成AIモデルをデバイス上で完全にオフラインで動かすことができます。


ユースケース一覧

ユースケース 対応モデル数 主な技術 新機能?
Ask Image 4 LiteRT、マルチモーダル -
Audio Scribe 4 MediaPipe LLM Inference API、音声 -
AI Chat 7 LiteRT-LM、Thinking Mode -
Agent Skills 2 LiteRT-LM、ファンクションコール ✅ NEW
Prompt Lab 7 LiteRT、単発推論 -
Tiny Garden 1 LiteRT、ファンクションコール -
Mobile Actions 1 LiteRT、OSインテント解決 -

1. Ask Image(画像への質問)

概要

写真やカメラ映像に対して自然言語で質問できる、マルチモーダルな視覚QA機能です。

最近のアップデートでマルチ画像・マルチターン対応が追加され、最大10枚の画像を同時にアップロードして、複数回のやり取りで深掘りできるようになりました。

使用例

  • 「この機器の不具合はどこですか?」(現場診断)
  • 「この写真の数式を解いてください」
  • 「画像内のサインを翻訳してください」
  • OCR、文書解析、グラフの読み取り

対応モデル(4種)

モデル 特徴
Gemma 3n E2B 高速、低メモリ(〜529 MB)
Gemma 3n E4B より高精度
Gemma 4 E2B 最新世代、1.5 GB以下で動作
Gemma 4 E4B 高度な推論能力

技術詳細

  • LiteRT LLM Inference API を使用
  • Gemma 4はオブジェクト検出・PDF解析・スクリーン理解・手書き認識・多言語OCR・ポインティングに対応
  • Gemma 3nはテキスト+画像+音声+動画をネイティブにサポート

2. Audio Scribe(音声文字起こし・翻訳)

概要

音声ファイルのアップロードまたはリアルタイムマイク録音から、文字起こしや翻訳をデバイス上で完全オフラインで実行できます。

現時点の制限:バッチ推論は最大30秒の音声クリップまで対応。ストリーミング音声サポートはロードマップに記載あり。

機能

  • Speech-to-Text:多言語の音声を文字起こし
  • Speech-to-Translated-Text:音声を他言語に翻訳しながら文字起こし
  • 対応言語:140以上の言語をサポート

対応モデル(4種)

モデル 備考
Gemma 3n E2B 音声サポートを最初に搭載したモデル
Gemma 3n E4B -
Gemma 4 E2B 音声入力をネイティブサポート
Gemma 4 E4B -

技術詳細

  • MediaPipe LLM Inference API を利用
  • Gemma 3nがこの機能を搭載した最初のモデルとして発表(Google Developers Blog)
  • Android・Webブラウザ(MediaPipe経由)の両方で利用可能

3. AI Chat(マルチターン対話)

概要

オンデバイスLLMを使った本格的なマルチターン会話機能です。Thinking Modeトグルが搭載されており、モデルがステップバイステップで推論するプロセスを可視化できます。

複雑な問題解決や、AIがどう考えているかを確認したいときに特に有用です。

使用例

  • 一般的なQ&A・会話
  • Thinking Modeによる複雑な推論タスク
  • コード生成・デバッグ
  • 多言語チャット

対応モデル(7種)

モデル 開発元 特徴
Gemma 4 E2B Google 3倍高速、低レイテンシ
Gemma 4 E4B Google 高精度推論
Gemma 3n E2B Google -
Gemma 3n E4B Google -
Qwen2.5-1.5B-Instruct Alibaba 軽量・多言語
Phi-4-mini-instruct Microsoft 軽量・高品質
DeepSeek-R1-Distill-Qwen-1.5B DeepSeek 推論特化

技術詳細

  • Thinking Modeは主にGemma 4ファミリーで利用可能
  • Hugging Face連携によりコミュニティモデルの追加インポートが可能
  • temperature、top-kなど推論パラメータの調整が可能

4. Agent Skills(エージェント機能)✅ NEW

概要

最も新しく高度な機能(Gemma 4発表と同時に追加)。LLMをシンプルなチャット以上の存在に変え、モジュール式の「スキル(ツール)」を使って完全オンデバイスで自律的なマルチステップ処理を実行できます。

組み込みスキル

スキル 説明
Wikipedia検索 事実確認のための百科事典検索
インタラクティブマップ 位置情報に基づくマップ表示
リッチビジュアルサマリーカード 構造化されたアウトプット生成
カスタムスキル URLからモジュール式スキルを読み込む

デモで確認された性能

  • 4,000入力トークンを2つのスキルで3秒以内に処理
  • Qualcomm Dragonwing IQ8 NPUで3,700 tokens/secのプリフィル速度

対応モデル(2種)

モデル 用途
Gemma 4 E2B 速度優先(3倍速)、低レイテンシ
Gemma 4 E4B 精度優先、複雑なエージェントタスク向け

技術詳細

  • LiteRT-LM + GPU最適化
  • Gemma 4 E2BはメモリUsage 1.5 GB以下で動作
  • ファンクションコール・構造化JSONアウトプット・システム命令をネイティブサポート
  • スキルは拡張可能(URLから読み込む)
  • 140以上の言語に対応

5. Prompt Lab(プロンプト実験場)

概要

プロンプトエンジニアリングのための単発テストワークスペースです。AI Chatと異なり、各リクエストは独立(会話メモリなし)で、推論パラメータを細かく制御できます。

使用例

  • テキスト要約
  • トーン変換・コンテンツの書き直し
  • コードスニペット生成
  • プロンプトテンプレートのテスト

調整可能なパラメータ

  • Temperature
  • Top-K
  • CPU / GPU 切り替え
  • その他の推論パラメータ

対応モデル(7種)

AI Chatと同じ7モデル(Gemma 4 E2B/E4B、Gemma 3n E2B/E4B、Qwen2.5、Phi-4-mini、DeepSeek-R1-Distill)。

技術詳細

  • 開発者・パワーユーザー向けに設計
  • セッション状態がないため、孤立したプロンプトテストに最適
  • AI Chatと同じモデルバックエンドを使用

6. Tiny Garden(仮想ガーデン管理ゲーム)

概要

オンデバイスのファンクションコールをデモする楽しい実験的ミニゲームです。自然言語コマンドで仮想の庭を管理します。モデルが自然言語の指示を、ゲームロジックとグリッド座標を対象とする具体的な関数呼び出しに分解します。

使用例

「上段にひまわりを植えて水をあげて」
→ plant_seed(row=0, crop='sunflower')
→ water_plots([0,1,2])
「2列目をすべて収穫して」
→ harvest_column(col=2)

対応モデル(1種)

FunctionGemma-270M(このユースケース専用にファインチューニング)

モデル仕様

項目
パラメータ数 270M
モデルサイズ 288 MB
ピークメモリ 551 MB
コンテキストウィンドウ 32K トークン
ベースモデル Gemma 3 270M

ベンチマーク(Samsung S25 Ultra / CPU / dynamic_int8)

指標
プリフィル速度 1,718 tokens/sec
デコード速度 125.9 tokens/sec
初回トークンまでの時間 0.3秒

精度

  • ベースFunctionGemma: ファンクションコールベンチマークで58%
  • ゲームタスク向けファインチューニング後: 85%

7. Mobile Actions(デバイス操作自動化)

概要

自然言語コマンドをAndroid OSのシステム関数呼び出しとアプリインテントに変換する、オフラインのプライバシー保護型デバイス自動化を実証します。

使用例

「サンフランシスコ空港をマップで見せて」
→ Maps起動(座標指定)

「明日の2時半に料理教室の予定を作って」
→ カレンダーAPI呼び出し

「懐中電灯をつけて」
→ デバイスハードウェア制御

対応モデル(1種)

FunctionGemma-270M(Mobile Actionsデータセットでファインチューニング)

Tiny Gardenと同じアーキテクチャだが、Googleのオープンなmobile-actionsデータセット(Hugging Faceで公開)でファインチューニングされています。

精度評価(BFCL: Berkeley Function Calling Leaderboard)

カテゴリ 精度
Simple 61.6%
Multiple 63.5%
Parallel 39.0%
Relevance 61.1%
Irrelevance 73.7%
Mobile Actionsタスク全体 85%

技術詳細

  • インターネット接続不要
  • ファインチューニングのレシピがgoogle-gemini/gemma-cookbookのNotebookとして公開済み

技術アーキテクチャまとめ

推論スタック

アプリ UI

LiteRT-LM(LLM推論エンジン)

LiteRT(旧TFLite、軽量ランタイム)

ハードウェア:GPU / NPU(Qualcomm QNN/XNNPACK) / CPU

モデル形式と量子化

  • ファイル形式: .litertlm
  • 配布元: Hugging Face(アプリ内で直接ダウンロード)
  • 量子化: Int4 / dynamic_int8(bf16比でモデルサイズ2.5〜4倍削減)

カスタムモデルのインポート

ADB push でデバイスのDownloadフォルダにモデルファイルを配置すると、アプリから読み込めます。


Pixel 9a vs Pixel 7 ベンチマーク比較(参考)

実際にGemma 4 E2B / E4BをPixel 9a(Tensor G4)とPixel 7(Tensor G2)で計測した結果を別記事でまとめています。

Pixel 7でGemma 4 E4Bを実行した場合、初回起動に約35分かかるケースも確認されています。


まとめ

Google AI Edge Galleryは、オンデバイスAIの現在地を体感できる最良のショーケースアプリです。

  • 手軽に試したい → AI Chat・Ask Image
  • 音声を扱いたい → Audio Scribe
  • プロンプトエンジニアリング → Prompt Lab
  • エージェントAIの最先端 → Agent Skills(Gemma 4が必要)
  • ファンクションコールのデモ → Tiny Garden・Mobile Actions

すべてオフラインで動作し、プライバシーが完全に保護されます。Gemma 4の登場でエッジAIの性能は急速に向上しており、今後のアップデートにも注目です。

Discussion