📷
画像検索機能の構築例とポイントと課題感

2024/12/09に公開
 これはなに？自然言語で画像を検索する機能を実装する機会があったので、構築例としての備忘録です。

 構成について
探している画像の特徴を自然言語で入力して検索を実施し、検索結果としてCloud Storageで公開した画像のリンクを返却して表示するという機能です。

以下2つのGoogle Cloudのサービスを使用して実装を行いました。
Cloud Run

Dockerコンテナを1つ用意し、Flaskでアプリサーバを構築しました。

画像検索は画像のディスクリプション情報と入力したプロンプトの類似度を測定し、近いものから検索結果として利用します。画像のディスクリプション情報はOpenAiのGPT-4o-miniを利用して画像を説明させることで情報量をかさ増しする工夫をしました。
Cloud Storage

検索対象の画像を保存しておきます。ストレージは外部に公開するように設定します。

 コンポーネントごとの実装ポイントと課題感
 フロントエンド最終的にHTMLとCSSとJSを直書きしました。初期はReactのコンテナを別に用意し、AppサーバーとAPIベースでのやり取りを想定していましたが時間がなく割愛しました。

 Appサーバー最終的にFlaskを選択したが、初期はDjangoを検討。設定項目が煩雑な点と、今回の検証の目的が画像検索だった為、より簡易に実装できるFlaskに変更した経緯がある。

 画像検索機能
 自然言語で検索機能の中核となる画像検索機能はLangChainとFaissを組み合わせてプロンプトによるベクトルデータベースを構築し、検索に利用する形で実装しました。機能はtext to imageですがやっていることは文章間の類似度比較に過ぎません。現在はDBを参照するまでで「生成」要素はないため、今後はRAG構成を展開しつつ、画像を生成する方向性があります。画像生成のRAG構成には以下3つの手法を検討中です。
RAGによる画像生成時のプロンプトの補強
マルチモーダルなRAGの構成として画像を直接読み込ませる
OpenAIのモデルはファインチューニングできるそうなのでこれの検討

 画像で検索【別タスクアプローチ】0-9の数値の画像を検索するタスク。要件として特徴的なものは以下。
高い精度が求められる
処理数が多いため、低コストな実行

数値の検出タスクを実行するために以下を試みた
OCR（easyOCRを使用）による検出　> 誤検出割合が高く、精度的にNG
Few-Shot Learningによる分類 > 学習データの多様性が確保できずNG（データオーギュメンテーションによるアプローチは数値情報特有の課題があり不使用「6」と「9」など。）
事前学習済みResNetの最終層手前の畳み込み層から埋め込み表現を取得、L2距離, コサイン類似度を取得 > 取得したベクトルFAISSに保存、検索
タスクの特徴的に検索対象が0-9の数値に限定されるため、画像分類よりも画像検索タスクとして捉えた方が筋の良いアプローチとなった。0-9の数値はフォントが異なるものの学習データとして取り込めば検索タスクとして成立しそう。

 Cloud Storageの利用について配信用の画像の保管と、URLを払い出すために利用します。

主に2点つまづきポイントがあったので、申し送りです。
画像について

使用を想定した画像にロックがかかっており、そのままでpillowで読み込み時にエラーとなった。これはロックを外すために一旦macで開いてpngで保存する形で回避した。
画像のサイズについて

使用を予定した画像は500KBから11MBまで幅広いサイズであった。大きいサイズのものはベクトル化に負荷をかけるだけでなく、読み込めないエラーの原因にもなるため、なるべく画像データは均一に前処理したものを利用するべき。※当たり前かもだけども改めて重要性を感じました。

 Cloud Runの利用について今回はGKEの利用を前提考えていましたが、時間もないため一旦検証文脈で速度優先でCloud Runとしました。クラウドのメリットである柔軟性と拡張性は最低限ですが、これをベースに様々なケースごとに最適な構成を考えていきたいです。

 まとめ今回は以上ですが、画像にまつわる生成AIに関するトピックはこちらの記事を適宜更新しようと思います。

 変更履歴2025/1/3 ResNetでの比較を追記
これはなに？

構成について

コンポーネントごとの実装ポイントと課題感

フロントエンド

Appサーバー

画像検索機能

自然言語で検索

画像で検索【別タスクアプローチ】

Cloud Storageの利用について

Cloud Runの利用について

まとめ

変更履歴

Discussion