📑

Azure OpenAIテキスト埋込モデルについて

に公開

Azure OpenAIテキスト埋込モデルについて

背景

Azure OpenAIでベクトル埋め込みに使用するモデルを選択・設定する必要があります。

参照:Azure OpenAI埋込についてのチュートリアルの前提条件

テキスト埋込モデルの比較

モデル名 最大要求(トークン数) 出力ディメンション(次元) MIRACL平均 MTEB平均 価格(1Mトークンあたり)
text-embedding-ada-002 8,192 1,536 31.4 61.0 $0.10
text-embedding-3-small 8,192 1,536 44.0 62.3 $0.02
text-embedding-3-large 8,192 3,072 54.9 64.6 $0.13

※2025年5月14日現在※

出力ディメンション(次元):テキストを数値ベクトルに変換したときの文字列またはトークンベクトルの長さ(次元数)

参照:
Azure OpenAIの埋込モデル
OpenAIの埋込モデル値段の比較
OpenAI新しい埋め込みモデルとAPIの更新

出力ディメンション(次元)が大きいとどうなる?

メリット:より多くの情報を保持できる → 類似性の精度が高くなる可能性がある。
デメリット:計算コストやストレージが増える → 処理が重くなる。

例えるなら:
テキストを「写真」に例えると、出力ディメンション(次元)は「解像度」に近いです。高解像度(高次元)なら細かい情報まで表現できますが、ファイルサイズも大きくなります。

※ 出力ディメンション(次元)サイズを調整してパフォーマンスリソース使用率を最適化できます。

結論

現時点では、小型で高効率なtext-embedding-3-smallモデルを採用し、ベクトル検索の結果を確認しようと考えています。今後は、text-embedding-3-large モデルも併用して比較する予定です。

参考リンク

セリオ株式会社 テックブログ

Discussion