👋

日本語タスクにおける text-embedding-3-small と text-embedding-3-large の性能比較

Makoto Akiyama

2025/11/19に公開

 0. はじめにはじめまして、株式会社NTTデータグループの技術革新統括本部品質保証部の秋山信と申します。
今回は仕事上でRAG導入をする際に検討したOpenAIの埋め込みモデルについてよりモデルそのものに着目をして深く比較をしたので以下の記事としてまとめようと思います。
今後OpenAIで埋め込みモデルを使用する人の少しでも役に立てば幸いです。

 1. 導入例えばRAG（Retrieval-Augmented Generation）システムを構築する際、文書検索の基盤となる「埋め込みモデル」を選定する必要があります。

OpenAIの text-embedding-3-small と text-embedding-3-large は、いずれも現行(202510現在)の最新モデルとして候補に挙がりますが、公式資料を読んでも実際の使い分け基準は明確ではありません。
参考: New embedding models and API updates | OpenAI
両モデルの位置づけは大雑把には以下のイメージです。

text-embedding-3-small：安く高速

text-embedding-3-large：相対的に高く低速だが高性能
コストについては明確に6.5倍となりますが、果たして性能はどのくらい上がるのでしょうか。
公式ドキュメントでは次のように説明されています。
“text-embedding-3-large performs better for both English and non-English tasks.”

Google翻訳：text-embedding-3-largeは英語と非英語の両方のタスクで優れたパフォーマンスを発揮します

引用元: OpenAI Platform Model Reference-text-embedding-3-large
しかしこの「non-English tasks」には多様な言語が含まれており、日本語がどの程度その「非英語」の範囲で性能向上しているのかは不明です。
本記事では、日本語タスクにおける text-embedding-3-small(以下small) と text-embedding-3-large(以下large) の性能差を定量的に検証し、それぞれの特徴や傾向を分析します。

RAG実装はあくまで検証のきっかけであり、焦点は埋め込みモデルそのものの日本語理解性能にあります。
!埋め込みモデルの性能比較を目的とする場合は、実際のプロダクト上で比較実験を行うことが望ましいため、本記事は参考程度にご覧ください。

 2. ざっくりまとめ日本語タスクの精度においてsmallがlargeに勝ることはほぼなく、いずれの指標でもlargeに軍配があがった。
特にlargeの方が常識的な固有名詞をはじめとして言い換えや表記揺れに強く、よほど低コストを目指していなければlargeを選択するのがよい。
一概に悪い結果であるとは言えないが、2文間の意味的類似度の評価タスク(JSTS)において両モデルとも人間の評価より高い値を出しているのでその点の認識は必要。

 3. 実験設定
 使用データセット実験には日本語NLPベンチマークである JGLUE (Japanese General Language Understanding Evaluation) を使用しました。

その中から次の2つのタスクを選択しています。

 1. JSTS (Japanese Semantic Textual Similarity)

概要：2文間の意味的類似度を評価するタスク

評価方法：各ペアに対し、人手で付与された類似度スコア(を0~1の値に線形変換したもの)を参照

使用データ：JGLUEのtestデータセット(1457件)
リンク
例：


文1
文2
類似度スコア


レンガの建物の前を、乳母車を押した女性が歩いています。
厩舎で馬と女性とが寄り添っています。
0.0

この例では、2つの文の内容は全く異なるため、類似度スコアは 0.0 とされています。
文章の意味の近さを定量的に定めるのは難しいですが、このデータセットで使われている類似度スコアを正解スコアとも呼ぶこととします。

 2. JCommonsenseQA (Japanese Commonsense Question Answering)

概要：常識的推論を問う多肢選択問題形式のタスク

評価方法：質問文と複数選択肢をembedding空間上で比較し、最も類似した選択肢を正答とみなす

使用データ：JGLUEの validationデータセット(1119件)
例：


質問
選択肢
正解


電子機器で使用される最も主要な電子回路基板の事をなんと言う？
掲示板 / パソコン / マザーボード / ハードディスク / まな板
マザーボード

この問題では、常識的な知識として「電子回路基板」は マザーボード を指します。

 評価指標

タスク
指標
内容


JSTS
pearson_r
embedding類似度と正解スコアの線形相関


spearman_rho
embedding類似度と正解スコアの順位相関

JCommonsenseQA
top1_acc
選んだ選択肢が正答である割合


mean_rank
正答選択肢の平均順位（小さいほど良い）


 4. 結果の概要
 JSTS（意味的類似度タスク）

指標
text-embedding-3-small
text-embedding-3-large


Pearson相関
0.8288
0.8859

Spearman相関
0.7811
0.8378

largeモデルがいずれの相関でもsmallを上回り、特にSpearman相関では+0.05以上の差が見られました。

これは2文の一致具合が人間の付与した正解データにより合致していることを示します。
また、２モデルのembedding類似度とデータセットの正解スコアを散布図にしたものが以下になります。

正解スコアは人間によってつけられたその２文章の類似度と考えてもらっておおむね差し支えありません。


正解スコアと埋め込みから得られた類似度の散布図
これを見ると２モデルとも全体的に正解スコアよりも大きい類似度を出す傾向にあります。
類似度や正解スコアは絶対的なものではないので正解スコアと近いほど精度が高いとは限りません。

ただ、正解スコアが0.4未満、つまり人間としてあまり似通っていない思われる文章の組に対して両モデルともに0.8を超える高い類似度を出しているケースがあることは認識しておいてもいいでしょう。

 JCommonsenseQA（常識推論タスク）

指標
small
large


Top-1 Accuracy
0.6550
0.8213

Mean Rank
1.626
1.294

こちらもlargeが全指標で上回り、なんと正答率は驚異の8割を超えてsmallに対して圧倒的な差を見せつけました。
また、このタスクでは各モデルが５つある選択肢すべてを順位付けします。
以下がそれぞれのモデルが正解選択肢を何番目に有力とみなしたかの回数です。

少しわかりにくいですが、例えば以下のグラフでsmallの３が90件あるのは、smallは90問において正解の選択肢を５つの選択肢のうち３番目に有力とみなした、ということです。
正解の選択肢を若い順位で選ぶ方がそのモデルの性能が高いことを示します。


正解選択肢を5つの選択肢の中で何番目に有力とみなしたか
これを見るとlargeは不正解の200件のうち正解選択肢を２位にしているものが121件(60.5%)となっているのに対して、smallは不正解の386件のうち正解選択肢を２位にしているものが203件(52.5%)となっていて、正解数以上にlargeの精度が相対的に高いことがわかります。

 5. 結果の深堀り
 5.1 JSTS（意味的類似度タスク）の分析JSTSタスクでは、埋め込みベクトル同士のコサイン類似度と、人手で付与された正解スコアとの相関を用いて性能を評価しました。

ただし正解スコアは絶対的な真値ではなく主観的な評価を含むため、ここではモデル間の類似度値そのものが大きく異なった15ケースを抽出し、2モデルの特徴を比較しました。
実際のデータとスコア


順位
文1
文2
正解スコア

largeによる類似度

smallによる類似度
２モデルの類似度の差分
データベース内のidx


1
たくさんの熊のぬいぐるみが重ねて置いてあります。
テディベアが山積みにされています。
0.8000
0.6893
0.2777
0.4116
761

2
ふるいボンネットタイプのくるまのパネルにはコカコーラと書いてあります。
道ばたに清涼飲料水の会社の車が止まっています。
0.4000
0.5091
0.1829
0.3262
402

3
カラフルな布が多数並べられています。
色とりどりの生地が並べられています。
0.8000
0.8319
0.5125
0.3194
600

4
山脈の近くで、大きなカイトが揚がっています。
山の傍の上空にパラグライダーが浮かんでいます。
0.3200
0.6719
0.3608
0.3111
269

5
海岸沿いで、数人が凧揚げをしています。
海岸の上空に凧が５つ揚がっています。
0.6800
0.7944
0.5139
0.2805
148

6
りんごにペティナイフが刺さっています。
手の上で赤いリンゴを刃物で切っています。
0.4800
0.6788
0.4077
0.2711
326

7
十数頭づつ集まった羊の群れの周りに、たくさんの人が集まっています。
広場にたくさんのヒツジが集められています。
0.6400
0.7068
0.4527
0.2541
853

8
子供がスマートホンを持っています。
子供がガラケーを持っています。
0.6000
0.8107
0.5567
0.2540
744

9
薔薇の花の形をした置物が置いてあります。
深紅のバラの置物が飾ってあります。
0.7600
0.7786
0.5293
0.2493
212

10
道路でスケボーをしている人がいます。
男性が道路でスケートボードに乗っています。
0.5200
0.7324
0.4847
0.2477
1299

11
人が街でスケートボードをしています。
路上でスケボーをしている人がいます。
0.8000
0.7456
0.4983
0.2473
992

12
たくさんのバナナが棒につりさげられています。
バナナの房が横に２列に並んで、吊るしてあります。
0.7600
0.7185
0.4777
0.2408
1200

13
空にタコの形をした凧が揚がっています。
水辺の広場の上空にたくさんの凧があがっています。
0.7600
0.6316
0.3935
0.2381
948

14
野菜の入ったパスタをとても近くから見ています。
緑の野菜と、マカロニが拡大されて写っています。
0.2400
0.6007
0.3636
0.2371
1106

15
子供のゾウが親ゾウによりそって歩いています。
草むらの上を大人の象の横に子象がよりそって歩いています。
0.6800
0.7878
0.5541
0.2337
1269


この15ケースを目視で確認し、次の3点が頻出もしくは重要な観点だと判断しました。

(1) 固有名詞の理解

例：「熊のぬいぐるみ」と「テディベア」など、同一対象を異なる表現で指すペアを正しく近いと評価できているか。

(2) 言い換え表現の理解

例：「カラフルな布」と「色とりどりの生地」、「パスタ」と「マカロニ」など、語彙レベルまたは抽象度の異なる言い換えを同義や近い意味として扱えるか。

(3) 表記揺れの扱い

例：「りんご」と「リンゴ」や「薔薇」と「バラ」など、文字表現の違いに頑健かどうか。

 5.1-(1) 固有名詞の理解：largeが圧倒的に優勢15ケース中、固有名詞に関する例は15件中わずか2件でしたが、それらは２モデルの類似度差の上位２件であり、いずれもlargeの方が顕著に正解スコアに近い値を出していました。

どちらのケースも「固有名詞」と「それを説明する一般名詞」の関係であり、smallはこれらを異なる概念として扱う傾向が見られました。
さらに実際に文中で登場した単語を抜粋して類似度を比較すると以下のような結果が得られました。


単語1
単語2
large
small


熊のぬいぐるみ
テディベア
0.5013
0.0718

清涼飲料水
テディベア
0.1324
0.1326

清涼飲料水
コカ・コーラ
0.5033
0.2709

熊のぬいぐるみ
コカ・コーラ
0.2082
0.1446

この結果を見ると、smallの類似度では特に「テディベア」という単語が「熊のぬいぐるみ」と大きく異なる単語と認識されているようです。

一方で「コカ・コーラ」についてはどちらも「熊のぬいぐるみ」よりは「清涼飲料水」の方が類似度が高いですが、largeの方がその差が大きく、直感的な結果に合致しています。

 5.1-(2) 言い換え表現の理解：largeがやや優位か最も多くのケース（15件中9.5件）で差が見られたのが言い換え表現の扱いです。（言い換えというよりも抽象度の違いのものを0.5件としてカウント)

この観点では、どちらか一方が常に優れているとは言い切れませんが、全体的にはlargeが高めの類似度を出す傾向が確認されました。

つまり、似通った文ではlargeの評価が過剰に高く出ている可能性は否定しきれません。
ここでも実際に文中に登場した言い換え表現を抜粋して類似度を測定する追加実験を行いました。


文1
文2
large
small


何かが重ねて置いてあります。
何かが山積みにされています。
0.7176
0.5121

カラフルな布
色とりどりの生地
0.7722
0.4637

スケートボードをしています。
スケートボードに乗っています。
0.8848
0.8629

ばなながつりさげられています。
ばななが吊るしてあります。
0.8876
0.6016

子供のゾウ
子象
0.4893
0.4385

先に断っておくと、そもそも類似度に絶対的な正解がないので以下は筆者の個人的な判断になります。

これらの結果を見ると、一部両モデルで大きな差が見られない部分もありますが、largeは同義・類似関係をより近くに捉えており、直感的な判断と整合性がある傾向があると判断できます。
また、largeが高めの類似度を出す傾向についてもRAGにおける検索などの応用ではTop-Kを調整することでlargeの方が実用的になる可能性を示唆しています。

多少高めにスコアを出すlargeの方が、関連文を幅広く拾いやすいためです。

 5.1-(3) 表記揺れの扱い：smallに顕著な弱さ15件中6件では、同じ内容で表記のみが異なる文が含まれていました。

結果として、smallは表記揺れに敏感すぎる傾向があり、実質的に同義の単語や表現で類似度を低く出すケースが多く確認されました。
ここでは単純に表記を変えただけの例と、意味的にも完全に違う単語に置き換えた例を作成して追加で類似度の比較を行いました。


文1
文2
large
small


手の上で赤いリンゴを刃物で切っています。
手の上で赤いりんごを刃物で切っています。
0.9810
0.9154

手の上で赤いリンゴを刃物で切っています。
手の上で赤いイチゴを刃物で切っています。
0.8554
0.9190


薔薇の花の形をした置物が置いてあります。

バラの花の形をした置物が置いてあります。
0.8350
0.7405


薔薇の花の形をした置物が置いてあります。

向日葵の花の形をした置物が置いてあります。
0.6970
0.7813

largeは「リンゴ→りんご」や「薔薇→バラ」の変化を小さい差として扱い、一方で「リンゴ→イチゴ」「薔薇→向日葵」のような実際の意味差を大きく評価しています。

これは正しい挙動と言えます。
一方でsmallはこれと逆の傾向を示しており、表記の違いを「異なる単語」として扱ってしまっているように思われます。
このことから、largeは一般語彙における表記の違いについてsmallよりも高性能と言えるでしょう。

 5.2 JCommonsenseQA（常識推論タスク）の分析JCommonsenseQA（Multiple-Choice Question）タスクでは、明確な正答が存在します。

そのため、タスク全体のスコア（第3章参照）において large が small を上回ったことは、モデルの日本語理解・推論性能の差が明確に表れた結果といえます。
しかし、本章では単にスコアの差を確認するだけでなく、両モデルがどのような問題で性能差を示したのかをより詳細に分析します。

 5.2-(1) 片方のみ正解したタスクのmarginの比較まず、両モデルの「片方のみ正解した」問題を抽出し、それぞれの「margin（マージン）」を比較しました。

marginとは、モデルがどれほど自信をもって正答を選択しているかを表す指標であり、
margin = [正解選択肢のスコア] − [それ以外の選択肢の最大スコア]
で定義されます。値が大きいほど、「他の選択肢よりも明確に正答を高く評価した」ことを意味します。
簡単に、モデルの選択に対するある種の自信と思ってもらって構いません。


条件
件数
平均margin


smallのみ正解
59件
0.0456

largeのみ正解
245件
0.1024

この結果から、largeが正答したケースではsmallが正答したケースよりも約2倍強のmarginを持っており、単に正答率が高いだけでなく、より確信をもって正解を選んでいることがわかります。

これは、正答率以上にlargeのモデルの優位性を示す結果です。

 5.2-(2) largeのみ正解した問題の特徴分析ここでは  、largeが正解し、smallが誤答した問題のうち、largeのmarginが大きい上位10件を抽出しました。

この分析では、largeが特に「自信をもって正解を選んだ」問題の傾向を探ります。
`large`のみが正解したタスクのうち`large`のmarginの大きい上位10件

問題文

largeの予測（正答）

smallの予測

large margin

small margin


金槌のことを何という？
ハンマー
きり
0.3808
-0.0204

英語でスチームはなんていう？
蒸気
煙
0.3685
-0.0769

てっぺんをなんていう？
頂上
大豆
0.3612
-0.0131

マチュピチュで有名な南アメリカの国はどこ？
ペルー
紅海
0.3583
-0.0194

キリスト教の教会のことを何という？
チャーチ
交差点
0.3234
-0.0238

次のうち、金管楽器であるのはどれ？
トランペット
メタル
0.3217
-0.0028

照明器具といえば？
ランプ
図書
0.3057
-0.0854

ローターのついた乗り物で空を移動することは？
ヘリコプターを飛ばすこと
運転
0.2943
-0.0017

漢字で書くと無花果。赤いつぶつぶが多い果実は？
イチジク
茉莉花
0.2730
-0.0029

窓を拭くときに使う洗剤は？
ウインドークリーナー
石鹸
0.2573
-0.0891

marginの説明として、largeは正答しているので正の値、smallは誤答しているので負の値になっています。
上表を観察すると、largeが優れた問題にはいくつかの共通点が見られました。
語彙的な抽象化や外国語由来語の理解が必要な問題
「ハンマー」「チャーチ」「トランペット」「スチーム」など、カタカナ語などの語彙を問われる問題。
カテゴリ階層的な理解
「金管楽器→トランペット」「照明器具→ランプ」など、上位カテゴリと下位語の関係性を正しく捉える必要のあるケース。
これはJSTSでの結果の深堀から得られた「言い換え表現の理解においてlargeが優勢」という結果をさらに裏付けるものだと言えます。
!そもそもJCommonsenseQAがこれらのタスクなどで構成されているため、全体の結果の裏付けに過ぎないという側面もあります。

 5.2-(3) smallが正答し、largeが誤答したケース一方で、smallのみが正解したケース（59件）も存在するが、  正解したsmallの平均marginが0.0456と低く、largeでは解けないが、smallなら精度高く(より自信を持って)正答できる問題セットが多くないことを示唆しています。

 6. まとめ本記事では、text-embedding-3-small と text-embedding-3-large の日本語タスク性能を比較し、第4,5章ではそれぞれの特徴的な違いを確認しました。
結果としては素人レベルでもわかる一般語彙の言い換えや有名な固有名詞についての性能がsmallでは疑問視される結果となりました。

特に前者は多くのLLMの使用用途で重要になる可能性があるので重大な性能差と言えるでしょう。　　

そのため、もしRAGなどでOpenAIの埋め込みモデルの選択をするとしたら、よほど料金的に安く抑えたいというニーズがなければ text-embedding-3-large を選択するのがよいと思います。
本記事が、使用する埋め込みモデルの選定に対して主に性能面での比較の足掛かりに少しでもなれば幸いです。

文1	文2	類似度スコア
レンガの建物の前を、乳母車を押した女性が歩いています。	厩舎で馬と女性とが寄り添っています。	0.0

質問	選択肢	正解
電子機器で使用される最も主要な電子回路基板の事をなんと言う？	掲示板 / パソコン / マザーボード / ハードディスク / まな板	マザーボード

タスク	指標	内容
JSTS	`pearson_r`	embedding類似度と正解スコアの線形相関
	`spearman_rho`	embedding類似度と正解スコアの順位相関
JCommonsenseQA	`top1_acc`	選んだ選択肢が正答である割合
	`mean_rank`	正答選択肢の平均順位（小さいほど良い）

指標	text-embedding-3-small	text-embedding-3-large
Pearson相関	0.8288	0.8859
Spearman相関	0.7811	0.8378

指標	`small`	`large`
Top-1 Accuracy	0.6550	0.8213
Mean Rank	1.626	1.294

順位	文1	文2	正解スコア	`large`による類似度	`small`による類似度	２モデルの類似度の差分	データベース内のidx
1	たくさんの熊のぬいぐるみが重ねて置いてあります。	テディベアが山積みにされています。	0.8000	0.6893	0.2777	0.4116	761
2	ふるいボンネットタイプのくるまのパネルにはコカコーラと書いてあります。	道ばたに清涼飲料水の会社の車が止まっています。	0.4000	0.5091	0.1829	0.3262	402
3	カラフルな布が多数並べられています。	色とりどりの生地が並べられています。	0.8000	0.8319	0.5125	0.3194	600
4	山脈の近くで、大きなカイトが揚がっています。	山の傍の上空にパラグライダーが浮かんでいます。	0.3200	0.6719	0.3608	0.3111	269
5	海岸沿いで、数人が凧揚げをしています。	海岸の上空に凧が５つ揚がっています。	0.6800	0.7944	0.5139	0.2805	148
6	りんごにペティナイフが刺さっています。	手の上で赤いリンゴを刃物で切っています。	0.4800	0.6788	0.4077	0.2711	326
7	十数頭づつ集まった羊の群れの周りに、たくさんの人が集まっています。	広場にたくさんのヒツジが集められています。	0.6400	0.7068	0.4527	0.2541	853
8	子供がスマートホンを持っています。	子供がガラケーを持っています。	0.6000	0.8107	0.5567	0.2540	744
9	薔薇の花の形をした置物が置いてあります。	深紅のバラの置物が飾ってあります。	0.7600	0.7786	0.5293	0.2493	212
10	道路でスケボーをしている人がいます。	男性が道路でスケートボードに乗っています。	0.5200	0.7324	0.4847	0.2477	1299
11	人が街でスケートボードをしています。	路上でスケボーをしている人がいます。	0.8000	0.7456	0.4983	0.2473	992
12	たくさんのバナナが棒につりさげられています。	バナナの房が横に２列に並んで、吊るしてあります。	0.7600	0.7185	0.4777	0.2408	1200
13	空にタコの形をした凧が揚がっています。	水辺の広場の上空にたくさんの凧があがっています。	0.7600	0.6316	0.3935	0.2381	948
14	野菜の入ったパスタをとても近くから見ています。	緑の野菜と、マカロニが拡大されて写っています。	0.2400	0.6007	0.3636	0.2371	1106
15	子供のゾウが親ゾウによりそって歩いています。	草むらの上を大人の象の横に子象がよりそって歩いています。	0.6800	0.7878	0.5541	0.2337	1269

単語1	単語2	`large`	`small`
熊のぬいぐるみ	テディベア	0.5013	0.0718
清涼飲料水	テディベア	0.1324	0.1326
清涼飲料水	コカ・コーラ	0.5033	0.2709
熊のぬいぐるみ	コカ・コーラ	0.2082	0.1446

文1	文2	`large`	`small`
何かが重ねて置いてあります。	何かが山積みにされています。	0.7176	0.5121
カラフルな布	色とりどりの生地	0.7722	0.4637
スケートボードをしています。	スケートボードに乗っています。	0.8848	0.8629
ばなながつりさげられています。	ばななが吊るしてあります。	0.8876	0.6016
子供のゾウ	子象	0.4893	0.4385

文1	文2	`large`	`small`
手の上で赤いリンゴを刃物で切っています。	手の上で赤いりんごを刃物で切っています。	0.9810	0.9154
手の上で赤いリンゴを刃物で切っています。	手の上で赤いイチゴを刃物で切っています。	0.8554	0.9190
薔薇の花の形をした置物が置いてあります。	バラの花の形をした置物が置いてあります。	0.8350	0.7405
薔薇の花の形をした置物が置いてあります。	向日葵の花の形をした置物が置いてあります。	0.6970	0.7813

条件	件数	平均margin
`small`のみ正解	59件	0.0456
`large`のみ正解	245件	0.1024

問題文	`large`の予測（正答）	`small`の予測	`large` margin	`small` margin
金槌のことを何という？	ハンマー	きり	0.3808	-0.0204
英語でスチームはなんていう？	蒸気	煙	0.3685	-0.0769
てっぺんをなんていう？	頂上	大豆	0.3612	-0.0131
マチュピチュで有名な南アメリカの国はどこ？	ペルー	紅海	0.3583	-0.0194
キリスト教の教会のことを何という？	チャーチ	交差点	0.3234	-0.0238
次のうち、金管楽器であるのはどれ？	トランペット	メタル	0.3217	-0.0028
照明器具といえば？	ランプ	図書	0.3057	-0.0854
ローターのついた乗り物で空を移動することは？	ヘリコプターを飛ばすこと	運転	0.2943	-0.0017
漢字で書くと無花果。赤いつぶつぶが多い果実は？	イチジク	茉莉花	0.2730	-0.0029
窓を拭くときに使う洗剤は？	ウインドークリーナー	石鹸	0.2573	-0.0891

NTT DATA TECH

NTT DATA公式アカウントです。技術を愛するNTT DATAの技術者が、気軽に楽しく発信していきます。当社のサービスなどについてのお問い合わせは、お問い合わせフォーム nttdata.com/jp/ja/contact-us/ へお願いします。

設定によりコメント欄が無効化されています

日本語タスクにおける text-embedding-3-small と text-embedding-3-large の性能比較

0. はじめに

1. 導入

2. ざっくりまとめ

3. 実験設定

使用データセット

1. JSTS (Japanese Semantic Textual Similarity)

2. JCommonsenseQA (Japanese Commonsense Question Answering)

評価指標

4. 結果の概要

JSTS（意味的類似度タスク）

JCommonsenseQA（常識推論タスク）

5. 結果の深堀り

5.1 JSTS（意味的類似度タスク）の分析

5.1-(1) 固有名詞の理解：`large`が圧倒的に優勢

5.1-(2) 言い換え表現の理解：`large`がやや優位か

5.1-(3) 表記揺れの扱い：`small`に顕著な弱さ

5.2 JCommonsenseQA（常識推論タスク）の分析

5.2-(1) 片方のみ正解したタスクのmarginの比較

5.2-(2) `large`のみ正解した問題の特徴分析

5.2-(3) `small`が正答し、`large`が誤答したケース

6. まとめ