NTT DATA TECH
👋

日本語タスクにおける text-embedding-3-small と text-embedding-3-large の性能比較

に公開

0. はじめに

はじめまして、株式会社NTTデータグループの技術革新統括本部品質保証部の秋山信と申します。

今回は仕事上でRAG導入をする際に検討したOpenAIの埋め込みモデルについてよりモデルそのものに着目をして深く比較をしたので以下の記事としてまとめようと思います。

今後OpenAIで埋め込みモデルを使用する人の少しでも役に立てば幸いです。

1. 導入

例えばRAG(Retrieval-Augmented Generation)システムを構築する際、文書検索の基盤となる「埋め込みモデル」を選定する必要があります。
OpenAIの text-embedding-3-smalltext-embedding-3-large は、いずれも現行(202510現在)の最新モデルとして候補に挙がりますが、公式資料を読んでも実際の使い分け基準は明確ではありません。

参考: New embedding models and API updates | OpenAI

両モデルの位置づけは大雑把には以下のイメージです。

  • text-embedding-3-small:安く高速
  • text-embedding-3-large:相対的に高く低速だが高性能

コストについては明確に6.5倍となりますが、果たして性能はどのくらい上がるのでしょうか。

公式ドキュメントでは次のように説明されています。

“text-embedding-3-large performs better for both English and non-English tasks.”
Google翻訳:text-embedding-3-largeは英語と非英語の両方のタスクで優れたパフォーマンスを発揮します
引用元: OpenAI Platform Model Reference-text-embedding-3-large

しかしこの「non-English tasks」には多様な言語が含まれており、日本語がどの程度その「非英語」の範囲で性能向上しているのかは不明です。

本記事では、日本語タスクにおける text-embedding-3-small(以下small) と text-embedding-3-large(以下large) の性能差を定量的に検証し、それぞれの特徴や傾向を分析します。
RAG実装はあくまで検証のきっかけであり、焦点は埋め込みモデルそのものの日本語理解性能にあります。

2. ざっくりまとめ

  • 日本語タスクの精度においてsmalllargeに勝ることはほぼなく、いずれの指標でもlargeに軍配があがった。
  • 特にlargeの方が常識的な固有名詞をはじめとして言い換えや表記揺れに強く、よほど低コストを目指していなければlargeを選択するのがよい。
  • 一概に悪い結果であるとは言えないが、2文間の意味的類似度の評価タスク(JSTS)において両モデルとも人間の評価より高い値を出しているのでその点の認識は必要。

3. 実験設定

使用データセット

実験には日本語NLPベンチマークである JGLUE (Japanese General Language Understanding Evaluation) を使用しました。
その中から次の2つのタスクを選択しています。

1. JSTS (Japanese Semantic Textual Similarity)

  • 概要:2文間の意味的類似度を評価するタスク
  • 評価方法:各ペアに対し、人手で付与された類似度スコア(を0~1の値に線形変換したもの)を参照
  • 使用データ:JGLUEのtestデータセット(1457件)
  • リンク

例:

文1 文2 類似度スコア
レンガの建物の前を、乳母車を押した女性が歩いています。 厩舎で馬と女性とが寄り添っています。 0.0

この例では、2つの文の内容は全く異なるため、類似度スコアは 0.0 とされています。

文章の意味の近さを定量的に定めるのは難しいですが、このデータセットで使われている類似度スコアを正解スコアとも呼ぶこととします。

2. JCommonsenseQA (Japanese Commonsense Question Answering)

  • 概要:常識的推論を問う多肢選択問題形式のタスク
  • 評価方法:質問文と複数選択肢をembedding空間上で比較し、最も類似した選択肢を正答とみなす
  • 使用データ:JGLUEの validationデータセット(1119件)

例:

質問 選択肢 正解
電子機器で使用される最も主要な電子回路基板の事をなんと言う? 掲示板 / パソコン / マザーボード / ハードディスク / まな板 マザーボード

この問題では、常識的な知識として「電子回路基板」は マザーボード を指します。


評価指標

タスク 指標 内容
JSTS pearson_r embedding類似度と正解スコアの線形相関
spearman_rho embedding類似度と正解スコアの順位相関
JCommonsenseQA top1_acc 選んだ選択肢が正答である割合
mean_rank 正答選択肢の平均順位(小さいほど良い)

4. 結果の概要

JSTS(意味的類似度タスク)

指標 text-embedding-3-small text-embedding-3-large
Pearson相関 0.8288 0.8859
Spearman相関 0.7811 0.8378

largeモデルがいずれの相関でもsmallを上回り、特にSpearman相関では+0.05以上の差が見られました。
これは2文の一致具合が人間の付与した正解データにより合致していることを示します。

また、2モデルのembedding類似度とデータセットの正解スコアを散布図にしたものが以下になります。
正解スコアは人間によってつけられたその2文章の類似度と考えてもらっておおむね差し支えありません。


正解スコアと埋め込みから得られた類似度の散布図

これを見ると2モデルとも全体的に正解スコアよりも大きい類似度を出す傾向にあります。

類似度や正解スコアは絶対的なものではないので正解スコアと近いほど精度が高いとは限りません。
ただ、正解スコアが0.4未満、つまり人間としてあまり似通っていない思われる文章の組に対して両モデルともに0.8を超える高い類似度を出しているケースがあることは認識しておいてもいいでしょう。


JCommonsenseQA(常識推論タスク)

指標 small large
Top-1 Accuracy 0.6550 0.8213
Mean Rank 1.626 1.294

こちらもlargeが全指標で上回り、なんと正答率は驚異の8割を超えてsmallに対して圧倒的な差を見せつけました。

また、このタスクでは各モデルが5つある選択肢すべてを順位付けします。

以下がそれぞれのモデルが正解選択肢を何番目に有力とみなしたかの回数です。
少しわかりにくいですが、例えば以下のグラフでsmallの3が90件あるのは、smallは90問において正解の選択肢を5つの選択肢のうち3番目に有力とみなした、ということです。

正解の選択肢を若い順位で選ぶ方がそのモデルの性能が高いことを示します。


正解選択肢を5つの選択肢の中で何番目に有力とみなしたか

これを見るとlargeは不正解の200件のうち正解選択肢を2位にしているものが121件(60.5%)となっているのに対して、smallは不正解の386件のうち正解選択肢を2位にしているものが203件(52.5%)となっていて、正解数以上にlargeの精度が相対的に高いことがわかります。


5. 結果の深堀り

5.1 JSTS(意味的類似度タスク)の分析

JSTSタスクでは、埋め込みベクトル同士のコサイン類似度と、人手で付与された正解スコアとの相関を用いて性能を評価しました。
ただし正解スコアは絶対的な真値ではなく主観的な評価を含むため、ここではモデル間の類似度値そのものが大きく異なった15ケースを抽出し、2モデルの特徴を比較しました。

実際のデータとスコア
順位 文1 文2 正解スコア largeによる類似度 smallによる類似度 2モデルの類似度の差分 データベース内のidx
1 たくさんの熊のぬいぐるみが重ねて置いてあります。 テディベアが山積みにされています。 0.8000 0.6893 0.2777 0.4116 761
2 ふるいボンネットタイプのくるまのパネルにはコカコーラと書いてあります。 道ばたに清涼飲料水の会社の車が止まっています。 0.4000 0.5091 0.1829 0.3262 402
3 カラフルな布が多数並べられています。 色とりどりの生地が並べられています。 0.8000 0.8319 0.5125 0.3194 600
4 山脈の近くで、大きなカイトが揚がっています。 山の傍の上空にパラグライダーが浮かんでいます。 0.3200 0.6719 0.3608 0.3111 269
5 海岸沿いで、数人が凧揚げをしています。 海岸の上空に凧が5つ揚がっています。 0.6800 0.7944 0.5139 0.2805 148
6 りんごにペティナイフが刺さっています。 手の上で赤いリンゴを刃物で切っています。 0.4800 0.6788 0.4077 0.2711 326
7 十数頭づつ集まった羊の群れの周りに、たくさんの人が集まっています。 広場にたくさんのヒツジが集められています。 0.6400 0.7068 0.4527 0.2541 853
8 子供がスマートホンを持っています。 子供がガラケーを持っています。 0.6000 0.8107 0.5567 0.2540 744
9 薔薇の花の形をした置物が置いてあります。 深紅のバラの置物が飾ってあります。 0.7600 0.7786 0.5293 0.2493 212
10 道路でスケボーをしている人がいます。 男性が道路でスケートボードに乗っています。 0.5200 0.7324 0.4847 0.2477 1299
11 人が街でスケートボードをしています。 路上でスケボーをしている人がいます。 0.8000 0.7456 0.4983 0.2473 992
12 たくさんのバナナが棒につりさげられています。 バナナの房が横に2列に並んで、吊るしてあります。 0.7600 0.7185 0.4777 0.2408 1200
13 空にタコの形をした凧が揚がっています。 水辺の広場の上空にたくさんの凧があがっています。 0.7600 0.6316 0.3935 0.2381 948
14 野菜の入ったパスタをとても近くから見ています。 緑の野菜と、マカロニが拡大されて写っています。 0.2400 0.6007 0.3636 0.2371 1106
15 子供のゾウが親ゾウによりそって歩いています。 草むらの上を大人の象の横に子象がよりそって歩いています。 0.6800 0.7878 0.5541 0.2337 1269

この15ケースを目視で確認し、次の3点が頻出もしくは重要な観点だと判断しました。

  • (1) 固有名詞の理解
    例:「熊のぬいぐるみ」と「テディベア」など、同一対象を異なる表現で指すペアを正しく近いと評価できているか。
  • (2) 言い換え表現の理解
    例:「カラフルな布」と「色とりどりの生地」、「パスタ」と「マカロニ」など、語彙レベルまたは抽象度の異なる言い換えを同義や近い意味として扱えるか。
  • (3) 表記揺れの扱い
    例:「りんご」と「リンゴ」や「薔薇」と「バラ」など、文字表現の違いに頑健かどうか。

5.1-(1) 固有名詞の理解:largeが圧倒的に優勢

15ケース中、固有名詞に関する例は15件中わずか2件でしたが、それらは2モデルの類似度差の上位2件であり、いずれもlargeの方が顕著に正解スコアに近い値を出していました
どちらのケースも「固有名詞」と「それを説明する一般名詞」の関係であり、smallはこれらを異なる概念として扱う傾向が見られました。

さらに実際に文中で登場した単語を抜粋して類似度を比較すると以下のような結果が得られました。

単語1 単語2 large small
熊のぬいぐるみ テディベア 0.5013 0.0718
清涼飲料水 テディベア 0.1324 0.1326
清涼飲料水 コカ・コーラ 0.5033 0.2709
熊のぬいぐるみ コカ・コーラ 0.2082 0.1446

この結果を見ると、smallの類似度では特に「テディベア」という単語が「熊のぬいぐるみ」と大きく異なる単語と認識されているようです。
一方で「コカ・コーラ」についてはどちらも「熊のぬいぐるみ」よりは「清涼飲料水」の方が類似度が高いですが、largeの方がその差が大きく、直感的な結果に合致しています。


5.1-(2) 言い換え表現の理解:largeがやや優位か

最も多くのケース(15件中9.5件)で差が見られたのが言い換え表現の扱いです。(言い換えというよりも抽象度の違いのものを0.5件としてカウント)
この観点では、どちらか一方が常に優れているとは言い切れませんが、全体的にはlargeが高めの類似度を出す傾向が確認されました。
つまり、似通った文ではlargeの評価が過剰に高く出ている可能性は否定しきれません。

ここでも実際に文中に登場した言い換え表現を抜粋して類似度を測定する追加実験を行いました。

文1 文2 large small
何かが重ねて置いてあります。 何かが山積みにされています。 0.7176 0.5121
カラフルな布 色とりどりの生地 0.7722 0.4637
スケートボードをしています。 スケートボードに乗っています。 0.8848 0.8629
ばなながつりさげられています。 ばななが吊るしてあります。 0.8876 0.6016
子供のゾウ 子象 0.4893 0.4385

先に断っておくと、そもそも類似度に絶対的な正解がないので以下は筆者の個人的な判断になります。
これらの結果を見ると、一部両モデルで大きな差が見られない部分もありますが、largeは同義・類似関係をより近くに捉えており、直感的な判断と整合性がある傾向があると判断できます。

また、largeが高めの類似度を出す傾向についてもRAGにおける検索などの応用ではTop-Kを調整することでlargeの方が実用的になる可能性を示唆しています。
多少高めにスコアを出すlargeの方が、関連文を幅広く拾いやすいためです。


5.1-(3) 表記揺れの扱い:smallに顕著な弱さ

15件中6件では、同じ内容で表記のみが異なる文が含まれていました。
結果として、smallは表記揺れに敏感すぎる傾向があり、実質的に同義の単語や表現で類似度を低く出すケースが多く確認されました。

ここでは単純に表記を変えただけの例と、意味的にも完全に違う単語に置き換えた例を作成して追加で類似度の比較を行いました。

文1 文2 large small
手の上で赤いリンゴを刃物で切っています。 手の上で赤いりんごを刃物で切っています。 0.9810 0.9154
手の上で赤いリンゴを刃物で切っています。 手の上で赤いイチゴを刃物で切っています。 0.8554 0.9190
薔薇の花の形をした置物が置いてあります。 バラの花の形をした置物が置いてあります。 0.8350 0.7405
薔薇の花の形をした置物が置いてあります。 向日葵の花の形をした置物が置いてあります。 0.6970 0.7813

largeは「リンゴ→りんご」や「薔薇→バラ」の変化を小さい差として扱い、一方で「リンゴ→イチゴ」「薔薇→向日葵」のような実際の意味差を大きく評価しています。
これは正しい挙動と言えます。

一方でsmallはこれと逆の傾向を示しており、表記の違いを「異なる単語」として扱ってしまっているように思われます。

このことから、largeは一般語彙における表記の違いについてsmallよりも高性能と言えるでしょう。


5.2 JCommonsenseQA(常識推論タスク)の分析

JCommonsenseQA(Multiple-Choice Question)タスクでは、明確な正答が存在します。
そのため、タスク全体のスコア(第3章参照)において largesmall を上回ったことは、モデルの日本語理解・推論性能の差が明確に表れた結果といえます。

しかし、本章では単にスコアの差を確認するだけでなく、両モデルがどのような問題で性能差を示したのかをより詳細に分析します。


5.2-(1) 片方のみ正解したタスクのmarginの比較

まず、両モデルの「片方のみ正解した」問題を抽出し、それぞれの「margin(マージン)」を比較しました。
marginとは、モデルがどれほど自信をもって正答を選択しているかを表す指標であり、

margin = [正解選択肢のスコア] − [それ以外の選択肢の最大スコア]

で定義されます。値が大きいほど、「他の選択肢よりも明確に正答を高く評価した」ことを意味します。

簡単に、モデルの選択に対するある種の自信と思ってもらって構いません。

条件 件数 平均margin
smallのみ正解 59件 0.0456
largeのみ正解 245件 0.1024

この結果から、largeが正答したケースではsmallが正答したケースよりも約2倍強のmarginを持っており、単に正答率が高いだけでなく、より確信をもって正解を選んでいることがわかります。
これは、正答率以上にlargeのモデルの優位性を示す結果です。


5.2-(2) largeのみ正解した問題の特徴分析

ここでは 、largeが正解し、smallが誤答した問題のうち、largeのmarginが大きい上位10件を抽出しました。
この分析では、largeが特に「自信をもって正解を選んだ」問題の傾向を探ります。

`large`のみが正解したタスクのうち`large`のmarginの大きい上位10件
問題文 largeの予測(正答) smallの予測 large margin small margin
金槌のことを何という? ハンマー きり 0.3808 -0.0204
英語でスチームはなんていう? 蒸気 0.3685 -0.0769
てっぺんをなんていう? 頂上 大豆 0.3612 -0.0131
マチュピチュで有名な南アメリカの国はどこ? ペルー 紅海 0.3583 -0.0194
キリスト教の教会のことを何という? チャーチ 交差点 0.3234 -0.0238
次のうち、金管楽器であるのはどれ? トランペット メタル 0.3217 -0.0028
照明器具といえば? ランプ 図書 0.3057 -0.0854
ローターのついた乗り物で空を移動することは? ヘリコプターを飛ばすこと 運転 0.2943 -0.0017
漢字で書くと無花果。赤いつぶつぶが多い果実は? イチジク 茉莉花 0.2730 -0.0029
窓を拭くときに使う洗剤は? ウインドークリーナー 石鹸 0.2573 -0.0891

marginの説明として、largeは正答しているので正の値、smallは誤答しているので負の値になっています。

上表を観察すると、largeが優れた問題にはいくつかの共通点が見られました。

  1. 語彙的な抽象化や外国語由来語の理解が必要な問題

    • 「ハンマー」「チャーチ」「トランペット」「スチーム」など、カタカナ語などの語彙を問われる問題。
  2. カテゴリ階層的な理解

    • 「金管楽器→トランペット」「照明器具→ランプ」など、上位カテゴリと下位語の関係性を正しく捉える必要のあるケース。

これはJSTSでの結果の深堀から得られた「言い換え表現の理解においてlargeが優勢」という結果をさらに裏付けるものだと言えます。


5.2-(3) smallが正答し、largeが誤答したケース

一方で、smallのみが正解したケース(59件)も存在するが、 正解したsmallの平均marginが0.0456と低く、largeでは解けないが、smallなら精度高く(より自信を持って)正答できる問題セットが多くないことを示唆しています。


6. まとめ

本記事では、text-embedding-3-small と text-embedding-3-large の日本語タスク性能を比較し、第4,5章ではそれぞれの特徴的な違いを確認しました。

結果としては素人レベルでもわかる一般語彙の言い換えや有名な固有名詞についての性能がsmallでは疑問視される結果となりました。
特に前者は多くのLLMの使用用途で重要になる可能性があるので重大な性能差と言えるでしょう。  
そのため、もしRAGなどでOpenAIの埋め込みモデルの選択をするとしたら、よほど料金的に安く抑えたいというニーズがなければ text-embedding-3-large を選択するのがよいと思います。

本記事が、使用する埋め込みモデルの選定に対して主に性能面での比較の足掛かりに少しでもなれば幸いです。

NTT DATA TECH
NTT DATA TECH
設定によりコメント欄が無効化されています