📑
Azure OpenAIテキスト埋込モデルについて
Azure OpenAIテキスト埋込モデルについて
背景
Azure OpenAIでベクトル埋め込みに使用するモデルを選択・設定する必要があります。
参照:Azure OpenAI埋込についてのチュートリアルの前提条件
テキスト埋込モデルの比較
モデル名 | 最大要求(トークン数) | 出力ディメンション(次元) | MIRACL平均 | MTEB平均 | 価格(1Mトークンあたり) |
---|---|---|---|---|---|
text-embedding-ada-002 | 8,192 | 1,536 | 31.4 | 61.0 | $0.10 |
text-embedding-3-small | 8,192 | 1,536 | 44.0 | 62.3 | $0.02 |
text-embedding-3-large | 8,192 | 3,072 | 54.9 | 64.6 | $0.13 |
※2025年5月14日現在※
出力ディメンション(次元):テキストを数値ベクトルに変換したときの文字列またはトークンのベクトルの長さ(次元数)
参照:
Azure OpenAIの埋込モデル
OpenAIの埋込モデル値段の比較
OpenAI新しい埋め込みモデルとAPIの更新
出力ディメンション(次元)が大きいとどうなる?
メリット:より多くの情報を保持できる → 類似性の精度が高くなる可能性がある。
デメリット:計算コストやストレージが増える → 処理が重くなる。
例えるなら:
テキストを「写真」に例えると、出力ディメンション(次元)は「解像度」に近いです。高解像度(高次元)なら細かい情報まで表現できますが、ファイルサイズも大きくなります。
※ 出力ディメンション(次元)サイズを調整してパフォーマンスとリソース使用率を最適化できます。
結論
現時点では、小型で高効率なtext-embedding-3-smallモデルを採用し、ベクトル検索の結果を確認しようと考えています。今後は、text-embedding-3-large モデルも併用して比較する予定です。
Discussion