🍣
Gemma3 1bをLambdaにデプロイしてみた

2025/03/17に公開
 Gemma3 1b を Lambda にデプロイしてみた
 はじめに最近、Google が公開した LLM「Gemma 3」、なんと DeepSeek 1.5b より小さく、Gemma3 1b もあったので、AWS Lambda にデプロイして実際に使ってみることにしました。Gemma 3 は比較的軽量でありながら高性能なモデルで、特に 1B パラメータのバージョンはクラウド環境でも手軽に利用できます。今回はその実装過程と結果について共有します。

 環境構築まず、AWS SAM（Serverless Application Model）を使用して Lambda 関数をデプロイする環境を準備しました。SAM はサーバーレスアプリケーションの構築とデプロイを簡素化するフレームワークです。
プロジェクトの構成は以下の通りです：
FastAPI を使用したバックエンド
Hugging Face からのモデルダウンロード
AWS Lambda へのデプロイ
ディレクトリ構成：
.
├── app
│   ├── Dockerfile
│   ├── __init__.py
│   ├── app.py
│   ├── models
│   │   └── gemma
│   │       ├── added_tokens.json
│   │       ├── config.json
│   │       ├── generation_config.json
│   │       ├── model.safetensors
│   │       ├── special_tokens_map.json
│   │       ├── tokenizer.json
│   │       ├── tokenizer.model
│   │       └── tokenizer_config.json
│   ├── requirements.txt
│   └── templates
│       └── chat.html
├── download_model.py
├── samconfig.toml
└── template.yaml

 モデルのローカルにダウンロードするまずは Gemma3 1b をローカルに持ってきます。
Access Tokensにて、READの権限があるアクセストークを発行し、

huggingface-cli loginで認証を解決した上、python3 download_model.py を実行します。

huggingface-cliのセットアップ手順は割愛します。
from huggingface_hub import snapshot_download

model_id = "google/gemma-3-1b-it"
snapshot_download(
    repo_id=model_id,
    local_dir="./app/models/gemma",
    ignore_patterns=["*.md", "*.h5"]
)

print(f"Model files downloaded to ./app/models/gemma")
)
このスクリプトを実行すると、モデルファイルがローカルの./app/models/gemmaディレクトリにダウンロードされます。

 アプリケーションの実装FastAPI を使用して API エンドポイントを実装しました。主な機能は：
テキスト生成 API
シンプルな Web ページ
✴︎ Lambda function URL でデプロイし、通常の Response を template に返す形なので、Lambda 環境では streaming が効かず改善は必要
import os
import torch
from fastapi import FastAPI, HTTPException, Request
from fastapi.responses import StreamingResponse, HTMLResponse
from fastapi.templating import Jinja2Templates
from mangum import Mangum
from pydantic import BaseModel
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
import json
from threading import Thread

app = FastAPI()
templates = Jinja2Templates(directory=os.path.join(os.path.dirname(__file__), "templates"))

# Select device
DEVICE = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using device: {DEVICE}")

# Load model
MODEL_DIR = "./models/gemma" if os.path.exists("./models/gemma") else "/var/task/models/gemma"
print(f"Loading model from {MODEL_DIR}...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, local_files_only=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_DIR,
    local_files_only=True,
    torch_dtype=torch.float32,
    device_map=DEVICE
)

class PromptRequest(BaseModel):
    prompt: str

@app.get("/", response_class=HTMLResponse)
async def chat_page(request: Request):
    return templates.TemplateResponse("chat.html", {"request": request})

@app.post("/generate/stream")
async def generate_text_stream(request: PromptRequest):
    try:
        messages = [{"role": "user", "content": request.prompt}]
        prompt = tokenizer.apply_chat_template(messages, tokenize=False)
        inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

        def generate():
            streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

            generation_kwargs = dict(
                **inputs,
                streamer=streamer,
                max_new_tokens=5000,
                temperature=0.6,
                do_sample=True,
                pad_token_id=tokenizer.pad_token_id
            )

            thread = Thread(target=model.generate, kwargs=generation_kwargs)
            thread.start()

            for text in streamer:
                yield f"data: {json.dumps({'text': text})}\n\n"

            yield "data: [DONE]\n\n"

        return StreamingResponse(
            generate(),
            media_type="text/event-stream"
        )

    except Exception as e:
        print(f"Generation error: {str(e)}")
        raise HTTPException(status_code=500, detail=str(e))

lambda_handler = Mangum(app)

 Docker コンテナの設定Lambda で実行するための Docker コンテナを設定しました：

イメージサイズは 2GB ほどあるので改善余地はあります。
FROM public.ecr.aws/lambda/python:3.12-arm64

COPY app.py requirements.txt ./

RUN microdnf install -y git && \
    pip install --no-cache-dir --upgrade pip && \
    pip install --no-cache-dir -r requirements.txt && \
    mkdir -p /var/task/templates

COPY ./templates /var/task/templates
COPY ./models/gemma ./models/gemma

CMD ["app.lambda_handler"]
ARM64 アーキテクチャを使用することで、コスト効率の良い Graviton3 プロセッサを利用できます。

 SAM テンプレートの設定AWS SAM のテンプレートファイルでは、Lambda 関数のリソース設定を行いました：
AWSTemplateFormatVersion: "2010-09-09"
Transform: AWS::Serverless-2016-10-31
Description: >
  Sample SAM Template for sam-gemma

Globals:
  Function:
    Timeout: 900
    MemorySize: 10240

Resources:
  LambdaFunction:
    Type: AWS::Serverless::Function
    Metadata:
      Dockerfile: Dockerfile
      DockerContext: ./app
      DockerTag: python3.12-v1
    Properties:
      PackageType: Image
      Architectures:
        - arm64
      Policies:
        - AWSLambdaRole
        - AWSLambdaBasicExecutionRole
        - Statement:
            Effect: Allow
            Action:
              - iam:PassRole
            Resource: "*"
特に注目すべき点は：
メモリサイズを 10GB に設定（モデルの読み込みに必要）
タイムアウトを 900 秒（15 分）に設定
ARM64 アーキテクチャの指定

 Web ページ雑に FastAPI のテンプレート機能を使いました。
ソースコード
!<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Gemma Chat</title>
    <style>
        body {
            font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen, Ubuntu, Cantarell, 'Open Sans', 'Helvetica Neue', sans-serif;
            max-width: 800px;
            margin: 0 auto;
            padding: 20px;
            background-color: #f5f5f5;
        }
        .chat-container {
            display: flex;
            flex-direction: column;
            height: calc(100vh - 200px);
            border-radius: 10px;
            overflow: hidden;
            box-shadow: 0 4px 6px rgba(0, 0, 0, 0.1);
        }
        .chat-messages {
            flex-grow: 1;
            padding: 20px;
            overflow-y: auto;
            background-color: white;
        }
        .message {
            margin-bottom: 15px;
            padding: 10px 15px;
            border-radius: 18px;
            max-width: 80%;
            line-height: 1.5;
        }
        .user-message {
            background-color: #007bff;
            color: white;
            align-self: flex-end;
            margin-left: auto;
        }
        .bot-message {
            background-color: #e9e9eb;
            color: #333;
            align-self: flex-start;
        }
        .input-area {
            display: flex;
            padding: 10px;
            background-color: #f0f0f0;
            border-top: 1px solid #ddd;
        }
        #user-input {
            flex-grow: 1;
            padding: 12px;
            border: none;
            border-radius: 20px;
            margin-right: 10px;
            font-size: 16px;
        }
        button {
            background-color: #007bff;
            color: white;
            border: none;
            border-radius: 20px;
            padding: 0 20px;
            cursor: pointer;
            font-size: 16px;
            transition: background-color 0.2s;
        }
        button:hover {
            background-color: #0056b3;
        }
        button:disabled {
            background-color: #cccccc;
            cursor: not-allowed;
        }
        .typing-indicator {
            display: none;
            margin-bottom: 15px;
        }
        .typing-indicator span {
            height: 10px;
            width: 10px;
            float: left;
            margin: 0 1px;
            background-color: #9E9EA1;
            display: block;
            border-radius: 50%;
            opacity: 0.4;
        }
        .typing-indicator span:nth-of-type(1) {
            animation: 1s blink infinite 0.3333s;
        }
        .typing-indicator span:nth-of-type(2) {
            animation: 1s blink infinite 0.6666s;
        }
        .typing-indicator span:nth-of-type(3) {
            animation: 1s blink infinite 0.9999s;
        }
        @keyframes blink {
            50% {
                opacity: 1;
            }
        }
        h1 {
            text-align: center;
            color: #333;
        }
    </style>
</head>
<body>
    <h1>Gemma Chat</h1>
    <div class="chat-container">
        <div class="chat-messages" id="chat-messages">
            <div class="message bot-message">Hello! I'm Gemma assistant. How can I help you today?</div>
            <div class="typing-indicator" id="typing-indicator">
                <span></span>
                <span></span>
                <span></span>
            </div>
        </div>
        <div class="input-area">
            <input type="text" id="user-input" placeholder="Enter your question..." autocomplete="off">
            <button id="send-button">Send</button>
        </div>
    </div>

    <script>
        const chatMessages = document.getElementById('chat-messages');
        const userInput = document.getElementById('user-input');
        const sendButton = document.getElementById('send-button');
        const typingIndicator = document.getElementById('typing-indicator');

        let isGenerating = false;

        // Send message
        function sendMessage() {
            if (isGenerating || !userInput.value.trim()) return;

            const userMessage = userInput.value.trim();
            addMessage(userMessage, 'user');
            userInput.value = '';

            // Show typing indicator
            typingIndicator.style.display = 'block';
            chatMessages.scrollTop = chatMessages.scrollHeight;

            isGenerating = true;
            sendButton.disabled = true;

            // Call streaming API
            fetchStreamResponse(userMessage);
        }

        // Add message to chat interface
        function addMessage(text, sender) {
            const messageDiv = document.createElement('div');
            messageDiv.classList.add('message');
            messageDiv.classList.add(sender === 'user' ? 'user-message' : 'bot-message');
            messageDiv.textContent = text;

            // Insert before typing indicator
            chatMessages.insertBefore(messageDiv, typingIndicator);
            chatMessages.scrollTop = chatMessages.scrollHeight;
        }

        // Stream response
        async function fetchStreamResponse(prompt) {
            try {
                const response = await fetch('/generate/stream', {
                    method: 'POST',
                    headers: {
                        'Content-Type': 'application/json'
                    },
                    body: JSON.stringify({ prompt })
                });

                if (!response.ok) {
                    throw new Error('Network response not ok');
                }

                const reader = response.body.getReader();
                const decoder = new TextDecoder();
                let botResponse = '';
                let botMessageElement = null;

                while (true) {
                    const { value, done } = await reader.read();
                    if (done) break;

                    const chunk = decoder.decode(value);
                    const lines = chunk.split('\n\n');

                    for (const line of lines) {
                        if (line.startsWith('data: ')) {
                            const data = line.substring(6);
                            if (data === '[DONE]') {
                                // Stream ended
                                break;
                            }

                            try {
                                const parsed = JSON.parse(data);
                                if (parsed.text) {
                                    botResponse += parsed.text;

                                    // If first token, create message element
                                    if (!botMessageElement) {
                                        botMessageElement = document.createElement('div');
                                        botMessageElement.classList.add('message', 'bot-message');
                                        chatMessages.insertBefore(botMessageElement, typingIndicator);
                                    }

                                    // Update message content
                                    botMessageElement.textContent = botResponse;
                                    chatMessages.scrollTop = chatMessages.scrollHeight;
                                }
                            } catch (e) {
                                console.error('Parse error:', e);
                            }
                        }
                    }
                }
            } catch (error) {
                console.error('Error fetching response:', error);
                addMessage('Sorry, an error occurred. Please try again.', 'bot');
            } finally {
                typingIndicator.style.display = 'none';
                isGenerating = false;
                sendButton.disabled = false;
            }
        }

        // Event listeners
        sendButton.addEventListener('click', sendMessage);
        userInput.addEventListener('keypress', (e) => {
            if (e.key === 'Enter') {
                sendMessage();
            }
        });

        // Initial focus on input field
        userInput.focus();
    </script>
</body>
</html>


 デプロイと実行結果sam buildとsam deployコマンドを使用して Lambda 関数をデプロイしました。デプロイ後 Lambda の管理画面にて Function URL の設定をし、そこからブラウザからアクセスできるようになります。

 パフォーマンスと制限Gemma 3 1b モデルは Lambda の 10GB 環境でも十分に動作しますが、いくつかの制限があります：
コールドスタート時間がかなり長い（モデルのロードに時間がかかる）
推論速度はローカル環境より遅い（ただ一度コールドスタートが済ませばそこまで遅くはないが）
長時間の処理では Lambda のタイムアウト制限に注意が必要
1b なのでまともな回答やタスクの実施などは期待できない

 まとめ以上で AWS Lambda に Gemma3 1b をデプロイすることができました。

まだ実用レベルではないですが、まだまだ改善できる余地はあるので、今後 Lambda での LLM 利用は期待しています。

 参考リソースAWS SAM CLI ドキュメント
Gemma 3 モデル（Hugging Face）
FastAPI ドキュメント
Gemma3 1b を Lambda にデプロイしてみた

はじめに

環境構築

モデルのローカルにダウンロードする

アプリケーションの実装

Docker コンテナの設定

SAM テンプレートの設定

Web ページ

デプロイと実行結果

パフォーマンスと制限

まとめ

参考リソース

Discussion