Google AI Edge Gallery 完全ガイド:7つのユースケースをすべて解説
Google AI Edge Gallery 完全ガイド
Google AI Edge Gallery は、Googleが提供する実験的・オープンソースのアプリで、最新の生成AIモデルをデバイス上で完全にオフラインで動かすことができます。
- GitHub: https://github.com/google-ai-edge/gallery
- Google Play: https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery
- 動作条件: Android 12L以上 / iOS 17以上
- 推論ランタイム: LiteRT(旧TensorFlow Lite)
- プライバシー: プロンプト・画像・音声はすべてデバイス内で処理。クラウド送信なし
ユースケース一覧
| ユースケース | 対応モデル数 | 主な技術 | 新機能? |
|---|---|---|---|
| Ask Image | 4 | LiteRT、マルチモーダル | - |
| Audio Scribe | 4 | MediaPipe LLM Inference API、音声 | - |
| AI Chat | 7 | LiteRT-LM、Thinking Mode | - |
| Agent Skills | 2 | LiteRT-LM、ファンクションコール | ✅ NEW |
| Prompt Lab | 7 | LiteRT、単発推論 | - |
| Tiny Garden | 1 | LiteRT、ファンクションコール | - |
| Mobile Actions | 1 | LiteRT、OSインテント解決 | - |
1. Ask Image(画像への質問)
概要
写真やカメラ映像に対して自然言語で質問できる、マルチモーダルな視覚QA機能です。
最近のアップデートでマルチ画像・マルチターン対応が追加され、最大10枚の画像を同時にアップロードして、複数回のやり取りで深掘りできるようになりました。
使用例
- 「この機器の不具合はどこですか?」(現場診断)
- 「この写真の数式を解いてください」
- 「画像内のサインを翻訳してください」
- OCR、文書解析、グラフの読み取り
対応モデル(4種)
| モデル | 特徴 |
|---|---|
| Gemma 3n E2B | 高速、低メモリ(〜529 MB) |
| Gemma 3n E4B | より高精度 |
| Gemma 4 E2B | 最新世代、1.5 GB以下で動作 |
| Gemma 4 E4B | 高度な推論能力 |
技術詳細
- LiteRT LLM Inference API を使用
- Gemma 4はオブジェクト検出・PDF解析・スクリーン理解・手書き認識・多言語OCR・ポインティングに対応
- Gemma 3nはテキスト+画像+音声+動画をネイティブにサポート
2. Audio Scribe(音声文字起こし・翻訳)
概要
音声ファイルのアップロードまたはリアルタイムマイク録音から、文字起こしや翻訳をデバイス上で完全オフラインで実行できます。
現時点の制限:バッチ推論は最大30秒の音声クリップまで対応。ストリーミング音声サポートはロードマップに記載あり。
機能
- Speech-to-Text:多言語の音声を文字起こし
- Speech-to-Translated-Text:音声を他言語に翻訳しながら文字起こし
- 対応言語:140以上の言語をサポート
対応モデル(4種)
| モデル | 備考 |
|---|---|
| Gemma 3n E2B | 音声サポートを最初に搭載したモデル |
| Gemma 3n E4B | - |
| Gemma 4 E2B | 音声入力をネイティブサポート |
| Gemma 4 E4B | - |
技術詳細
- MediaPipe LLM Inference API を利用
- Gemma 3nがこの機能を搭載した最初のモデルとして発表(Google Developers Blog)
- Android・Webブラウザ(MediaPipe経由)の両方で利用可能
3. AI Chat(マルチターン対話)
概要
オンデバイスLLMを使った本格的なマルチターン会話機能です。Thinking Modeトグルが搭載されており、モデルがステップバイステップで推論するプロセスを可視化できます。
複雑な問題解決や、AIがどう考えているかを確認したいときに特に有用です。
使用例
- 一般的なQ&A・会話
- Thinking Modeによる複雑な推論タスク
- コード生成・デバッグ
- 多言語チャット
対応モデル(7種)
| モデル | 開発元 | 特徴 |
|---|---|---|
| Gemma 4 E2B | 3倍高速、低レイテンシ | |
| Gemma 4 E4B | 高精度推論 | |
| Gemma 3n E2B | - | |
| Gemma 3n E4B | - | |
| Qwen2.5-1.5B-Instruct | Alibaba | 軽量・多言語 |
| Phi-4-mini-instruct | Microsoft | 軽量・高品質 |
| DeepSeek-R1-Distill-Qwen-1.5B | DeepSeek | 推論特化 |
技術詳細
- Thinking Modeは主にGemma 4ファミリーで利用可能
- Hugging Face連携によりコミュニティモデルの追加インポートが可能
- temperature、top-kなど推論パラメータの調整が可能
4. Agent Skills(エージェント機能)✅ NEW
概要
最も新しく高度な機能(Gemma 4発表と同時に追加)。LLMをシンプルなチャット以上の存在に変え、モジュール式の「スキル(ツール)」を使って完全オンデバイスで自律的なマルチステップ処理を実行できます。
組み込みスキル
| スキル | 説明 |
|---|---|
| Wikipedia検索 | 事実確認のための百科事典検索 |
| インタラクティブマップ | 位置情報に基づくマップ表示 |
| リッチビジュアルサマリーカード | 構造化されたアウトプット生成 |
| カスタムスキル | URLからモジュール式スキルを読み込む |
デモで確認された性能
- 4,000入力トークンを2つのスキルで3秒以内に処理
- Qualcomm Dragonwing IQ8 NPUで3,700 tokens/secのプリフィル速度
対応モデル(2種)
| モデル | 用途 |
|---|---|
| Gemma 4 E2B | 速度優先(3倍速)、低レイテンシ |
| Gemma 4 E4B | 精度優先、複雑なエージェントタスク向け |
技術詳細
- LiteRT-LM + GPU最適化
- Gemma 4 E2BはメモリUsage 1.5 GB以下で動作
- ファンクションコール・構造化JSONアウトプット・システム命令をネイティブサポート
- スキルは拡張可能(URLから読み込む)
- 140以上の言語に対応
5. Prompt Lab(プロンプト実験場)
概要
プロンプトエンジニアリングのための単発テストワークスペースです。AI Chatと異なり、各リクエストは独立(会話メモリなし)で、推論パラメータを細かく制御できます。
使用例
- テキスト要約
- トーン変換・コンテンツの書き直し
- コードスニペット生成
- プロンプトテンプレートのテスト
調整可能なパラメータ
- Temperature
- Top-K
- CPU / GPU 切り替え
- その他の推論パラメータ
対応モデル(7種)
AI Chatと同じ7モデル(Gemma 4 E2B/E4B、Gemma 3n E2B/E4B、Qwen2.5、Phi-4-mini、DeepSeek-R1-Distill)。
技術詳細
- 開発者・パワーユーザー向けに設計
- セッション状態がないため、孤立したプロンプトテストに最適
- AI Chatと同じモデルバックエンドを使用
6. Tiny Garden(仮想ガーデン管理ゲーム)
概要
オンデバイスのファンクションコールをデモする楽しい実験的ミニゲームです。自然言語コマンドで仮想の庭を管理します。モデルが自然言語の指示を、ゲームロジックとグリッド座標を対象とする具体的な関数呼び出しに分解します。
使用例
「上段にひまわりを植えて水をあげて」
→ plant_seed(row=0, crop='sunflower')
→ water_plots([0,1,2])
「2列目をすべて収穫して」
→ harvest_column(col=2)
対応モデル(1種)
FunctionGemma-270M(このユースケース専用にファインチューニング)
モデル仕様
| 項目 | 値 |
|---|---|
| パラメータ数 | 270M |
| モデルサイズ | 288 MB |
| ピークメモリ | 551 MB |
| コンテキストウィンドウ | 32K トークン |
| ベースモデル | Gemma 3 270M |
ベンチマーク(Samsung S25 Ultra / CPU / dynamic_int8)
| 指標 | 値 |
|---|---|
| プリフィル速度 | 1,718 tokens/sec |
| デコード速度 | 125.9 tokens/sec |
| 初回トークンまでの時間 | 0.3秒 |
精度
- ベースFunctionGemma: ファンクションコールベンチマークで58%
- ゲームタスク向けファインチューニング後: 85%
7. Mobile Actions(デバイス操作自動化)
概要
自然言語コマンドをAndroid OSのシステム関数呼び出しとアプリインテントに変換する、オフラインのプライバシー保護型デバイス自動化を実証します。
使用例
「サンフランシスコ空港をマップで見せて」
→ Maps起動(座標指定)
「明日の2時半に料理教室の予定を作って」
→ カレンダーAPI呼び出し
「懐中電灯をつけて」
→ デバイスハードウェア制御
対応モデル(1種)
FunctionGemma-270M(Mobile Actionsデータセットでファインチューニング)
Tiny Gardenと同じアーキテクチャだが、Googleのオープンなmobile-actionsデータセット(Hugging Faceで公開)でファインチューニングされています。
精度評価(BFCL: Berkeley Function Calling Leaderboard)
| カテゴリ | 精度 |
|---|---|
| Simple | 61.6% |
| Multiple | 63.5% |
| Parallel | 39.0% |
| Relevance | 61.1% |
| Irrelevance | 73.7% |
| Mobile Actionsタスク全体 | 85% |
技術詳細
- インターネット接続不要
- ファインチューニングのレシピがgoogle-gemini/gemma-cookbookのNotebookとして公開済み
技術アーキテクチャまとめ
推論スタック
アプリ UI
↓
LiteRT-LM(LLM推論エンジン)
↓
LiteRT(旧TFLite、軽量ランタイム)
↓
ハードウェア:GPU / NPU(Qualcomm QNN/XNNPACK) / CPU
モデル形式と量子化
- ファイル形式:
.litertlm - 配布元: Hugging Face(アプリ内で直接ダウンロード)
- 量子化: Int4 / dynamic_int8(bf16比でモデルサイズ2.5〜4倍削減)
カスタムモデルのインポート
ADB push でデバイスのDownloadフォルダにモデルファイルを配置すると、アプリから読み込めます。
Pixel 9a vs Pixel 7 ベンチマーク比較(参考)
実際にGemma 4 E2B / E4BをPixel 9a(Tensor G4)とPixel 7(Tensor G2)で計測した結果を別記事でまとめています。
Pixel 7でGemma 4 E4Bを実行した場合、初回起動に約35分かかるケースも確認されています。
まとめ
Google AI Edge Galleryは、オンデバイスAIの現在地を体感できる最良のショーケースアプリです。
- 手軽に試したい → AI Chat・Ask Image
- 音声を扱いたい → Audio Scribe
- プロンプトエンジニアリング → Prompt Lab
- エージェントAIの最先端 → Agent Skills(Gemma 4が必要)
- ファンクションコールのデモ → Tiny Garden・Mobile Actions
すべてオフラインで動作し、プライバシーが完全に保護されます。Gemma 4の登場でエッジAIの性能は急速に向上しており、今後のアップデートにも注目です。
Discussion