🏃
サーバーレスマルチモーダルRAG構築:学習ログ
やったこと
- AWSサーバーレス(Lambda、S3、Step Functions、Bedrockなど)だけでRAGを構築
- KendraやOpenSearchは使わず、OSSベースで動作を確認
- 目的は、RAGを動作させるためにどのサービスをどのように組み合わせればよいかを自分で理解すること
- 月1万ファイルに対して約15ドルで稼働
完成品
画面キャプチャ
-
フォルダアップロード画面
-
フォルダアップロード後、インデックス作成
-
チャットで質問
-
回答と根拠の提示
全体アーキテクチャ
主な特徴
- フォルダアップロードで一括処理可能
- 対応ファイル形式:txt, docx, pptx, pdf, excel, md
- 画像データも解析対象に含むマルチモーダル対応
- チャンキング・埋め込み・検索処理を並列化し高速化
- FAISSをベクトルデータベースとして使用し、そのインデックスはS3に保存
- AWS Amplify, Lambda, SQS, DynamoDB, Step Functions, Bedrockで構成
- イベント駆動型で低コスト運用
技術詳細
- ファイル解析:Lambda関数で各種ファイルをパース
- チャンキングと埋め込み:Step Functionsで並列実行
- 画像対応:マルチモーダルモデルに生成させた画像の説明文を埋め込みして対応
- ベクトル検索:FAISSをS3に保存し高速検索
- RAG:Bedrockを使い生成モデルで回答生成
- イベント駆動:S3イベント → SQS → Lambda連携
参考リポジトリ
- 特徴:
- KendraもOpenSearchも未使用
- LambdaでPDF分割 → Bedrockでベクトル化 → FAISSでインデックス → S3保存
- 検索もLambda経由 → コストがオンデマンド
参考にしたリポジトリは現状PDF1つのみに対応。
ここから以下の機能を追加実装する。また、実装に伴う課題への対策も記述する。
- 複数ファイル対応
- Lambda制限と並列処理
- 検索処理の並列化
- ドキュメント内の画像を検索対象に含める
機能の設計と実装
複数ファイル対応
課題: 複数ファイルをアップロードしたことを検知してインデックス作成を実行したい。1ファイルだけならS3トリガーで可能だが、複数ファイルのアップロードを検知する仕組みがない。
対策: 個別アップロードをカウントして完了判定を行う
設計の特徴
- DynamoDBでアップロード数管理 + Streamsで完了検知
- 状態管理が可能で可視化できる
処理の流れ
- クライアントがローカルのフォルダを指定して、Lambdaに署名付きURL発行をリクエスト
- LambdaがDynamoDBにアップロード想定数を記録する
- 署名付きURLを発行してクライアントにレスポンス
- クライアントが署名付きURLを使用してファイルをアップロードしていく
- ファイルアップロードの度にS3アップロードトリガーでカウンタLambdaを実行
- カウンタLambdaはDynamoDBのアップロード数を更新する
- レコードの更新がある度にDynamoDB Streamsでアップロード数確認Lambdaを実行する
- 想定アップロード数に達していたらインデックス作成マシンを実行する
Lambda制限と並列処理
課題: Lambdaには最大メモリ10GB、最大実行時間15分の制限あり
対策: ファイル単位・チャンク単位でLambdaを並列処理実行する
インデックス作成の並列化
イメージ
実装
StepFunctionsにファイル一覧をjsonとして入力し、Distributed Mapで1ファイルずつ処理する。ファイルの処理を並列で行い、さらにチャンクの処理を並列で行う。
- S3からファイルを取得してチャンキングを行う
- チャンクをSQSキューに送信
- ベクトル埋め込みの完了チェック用にチャンク数の合計数を送信しておく。
- チャンクをLambdaへ送信
- LambdaでBedrockのAPIを利用してベクトル化を行いS3に保存する
- ベクトル埋め込みが完了したことをDynamoDBへ通知する
- すべてのベクトル埋め込み処理が完了しているかどうか1秒おきにチェックする
- すべてのベクトル埋め込みが完了したらインデックス作成を行う
- S3からベクトルを取得してインデックス作成を行う。
サーバーレスでFan-out/Fan-inを実現する方法は以下の記事を参考
チャンキングと埋め込み
- ドキュメントに対して行うチャンキングと埋め込み処理をLambdaで実装
- PDF / Word / Excel / PowerPoint / Markdownに対応
- 文末で分割し、チャンク単位でベクトル化
- FAISSインデックスを作成しS3に保存
# 文末で区切る
sentences = re.findall(r'[^。!?.!?]*[。!?.!?]?', text)
sentences = [s.strip() for s in sentences if s.strip()]
# 1チャンクあたり500文字以内にする
chunks = []
current_chunk = []
max_chunk_size = 500
for sent in sentences:
current_chunk.append(sent)
if sum(len(s) for s in current_chunk) > max_chunk_size:
chunks.append("".join(current_chunk[:-1]))
current_chunk = [current_chunk[-1]]
if current_chunk:
chunks.append("".join(current_chunk))
# bedrockでベクトル埋め込み
response = bedrock_runtime.invoke_model(
modelId=MODEL_ID,
body=json.dumps({"inputText": text.strip()}),
contentType='application/json',
accept='application/json'
)
検索処理の並列化
- ファイル単位で検索 → 上位結果を集約 → リランキング
ドキュメント内の画像を検索対象に含める
- ドキュメントのチャンキング処理と同時に画像を抽出する
- AIに画像の説明文を生成させる
- 説明文はチャンクテキストと同じベクトル空間に埋め込む
ドキュメントのチャンキング処理と同時に画像を抽出する
def extract_images_from_xlsx(excel_path: str, output_dir: str) -> bool:
seen_hashes = set()
wb = load_workbook(excel_path)
image_saved = False
for sheet_name in wb.sheetnames:
sheet = wb[sheet_name]
for idx, image in enumerate(sheet._images, start=1):
if isinstance(image, XLImage):
try:
if hasattr(image, "_data") and image._data:
img_data = image._data()
img = Image.open(io.BytesIO(img_data))
filename = f"{os.path.splitext(os.path.basename(excel_path))[0]}_{sheet_name}_img{idx}.png"
マルチモーダルモデルに画像の説明文を生成させる
def lambda_handler(event: Dict[str, Any], context):
for record in event.get("Records", []):
try:
body = record.get("body")
task = json.loads(body) if isinstance(body, str) else body
uri = f"s3://{BUCKET}/{task.get('s3ImageObjectKey')}" # 画像を保存しているS3バケットのURIを指定
request_body = build_request_body(task, uri)
response = invoke_bedrock_with_retries(request_body, task['s3ImageObjectKey'])
caption = extract_caption_from_response(response)
send_caption_to_queue(task, caption) # ベクトル埋め込み処理用SQSに送信
return {'status': 'success', 'message': 'Caption generated and sent to TEXT_QUEUE'}
def build_request_body(task: Dict[str, Any], uri: str) -> Dict[str, Any]:
user_prompt = (
f"\n\nDocument file name: {task['subfolderPath']}{task['fileName']}\n"
"This image is extracted from a document and may contain text, figures, tables, or screenshots of the interface. "
"Please create a clear and concise Japanese caption describing the content, no more than 500 characters."
)
return {
"schemaVersion": "messages-v1",
"system": [
{
"text": (
'You are a professional image caption creator. Please create descriptive and natural Japanese captions based on the images and related information provided by users. '
'Captions should include the following: '
'- String displayed in the image, '
'- A description of what you see in the image, '
'- Relevant background information (if available). '
'Please do not guess and omit any unknown parts.'
)
}
],
"messages": [
{
"role": "user",
"content": [
{
"image": {
"format": "png",
"source": {
"s3Location": {
"uri": uri,
"bucketOwner": ACCOUNT
}
}
}
},
{"text": user_prompt}
]
}
],
"inferenceConfig": {
"max_new_tokens": 300,
"top_p": 0.1,
"top_k": 20,
"temperature": 0.3
}
}
生成した説明文はドキュメントのチャンクテキストと同じ処理を辿っていき、最終的に同じベクトル空間へ埋め込まれる。
最終アーキテクチャ図
コスト
大まかな計算で以下の通り
月1万ファイルのPDFをアップロード:約9ドル
月1万回質問:約6ドル
合計:15ドル
1万ファイル規模でもかなり低コストで実現できることがわかった
コスト試算詳細
条件:
- PDF(2MB、50チャンク)をアップロード
- 無料利用枠は考慮しない
- 東京リージョン
単価
サービス | 単価 |
---|---|
Lambda | GB-秒あたり $0.0000166667、100万リクエストあたり $0.20 |
SQS | 100万リクエストあたり $0.40 |
DynamoDB(書き込み) | 100 万あたり $0.715 |
DynamoDB(読み出し) | 100 万あたり $0.1425 |
Bedrock (Titan Text V2) | 1,000トークンあたり $0.000029 |
ファイルアップロードのコスト
項目 | 詳細 | 金額 (USD) |
---|---|---|
Lambda(署名付きURL) | 512MB × 10000ms | $0.0000833335 |
DynamoDB(書き込み) | 500(ファイル) | $0.0003575 |
DynamoDB(読み出し) | 500(ファイル) | $0.00007125 |
合計 | $0.0005120835 |
埋め込み処理のコスト
項目 | 詳細 | 金額 (USD) |
---|---|---|
Lambda(埋め込み) | 512MB × 150ms × 25,000回 | $0.03625 |
Lambda(インデックス) | 1024MB × 3000ms × 500回 | $0.0251 |
SQS | 25,000メッセージ(500ファイル × 50チャンク) | $0.01 |
DynamoDB(書き込み) | 25,000(500ファイル × 50チャンク) | $0.017875 |
Bedrock (Titan Text V2) | 12,500,000トークン(25,000チャンク × 500トークン) | $0.3625 |
合計 | $0.451725 |
検索処理1回あたりのコスト
処理項目 | 詳細 | 金額 (USD) |
---|---|---|
Lambda(検索) | 1024MB × 500ms × 1回 | $0.00000833 |
SQS | 500メッセージ(1メッセージ/ファイル) | $0.0002 |
DynamoDB(書き込み) | 500 | $0.0003575 |
DynamoDB(読み出し) | 500 | $0.00007125 |
合計(検索1回) | $0.00063708 |
学び・感想
- イベント駆動(S3トリガー・DynamoDB Streams・SQS)はベストプラクティスを取り入れ学びになった
- Lambda制限を考慮した分散処理設計は必須
- サーバーレスは楽しいが構成が複雑になる
Discussion