🦔

複数LLMでの回答比較と評価 — 実験結果レポート

2025/02/16に公開

こんにちは、あるいはこんばんは。
前回の記事で、Azure OpenAI(4omini)Llama3.3Qwen2.5の3モデルを使い、下記の質問に対する回答精度をコサイン類似度で比較するコードを紹介しました。今回はその結果をもう少し掘り下げてご紹介します。


実験概要

  1. 質問と正解
    • CSVに用意した6つの質問(例:花王の生産拠点数・大成温調のDOEなど)と、その「正解」テキストを用意
  2. 各LLMに問い合わせ
    • ダミーの参照情報を加味したうえで回答を取得
  3. 埋め込みベクトル化 & コサイン類似度
    • 回答文と正解文をAzure Embeddingsでベクトル化し、コサイン類似度を計算
    • 値が1に近いほど回答が正解に近い
  4. 平均スコアでモデル比較
    • 質問ごとの類似度を集計し、各モデルの平均値を算出

質問別の結果

1. 大成温調の高付加価値セグメント

  • 正解: 改修セグメント、医療用・産業用セグメント、官公庁セグメント
  • 回答
    • Azure: 「改修セグメント、医療用・産業用セグメント、官公庁セグメント。」
    • Llama: 「改修、医療用・産業用、官公庁です。」
    • Qwen: 「「改修」セグメント、「医療用・産業用」セグメント、「官公庁」セグメント」
  • コサイン類似度
    • Azure: 0.9800
    • Llama: 0.6627
    • Qwen: 0.8893

最も正解に近かったのはAzure
Qwenもかなり高得点だが、Azureがわずかに上回る結果。


2. 花王の生産拠点数

  • 正解: 36拠点
  • 回答
    • Azure: 「花王の生産拠点数は36拠点。」
    • Llama: 「花王グループ全体で75拠点…(中略)…36-10=26…」 (数値が複雑に混在)
    • Qwen: 「36拠点」
  • コサイン類似度
    • Azure: 0.4925
    • Llama: 0.4146
    • Qwen: 0.8359

今回の質問ではQwenが最も正解に近い結果を出しました。
一方、Azureも回答文面は「36拠点」と合致しているものの、Embeddingの解釈によってスコアが伸び悩んだ形となっています。


3. 電通グループPurpose

  • 正解: an invitation to the never before.
  • 回答
    • Azure: 「an invitation to the never before.」
    • Llama: 「an invitation to the never before.」
    • Qwen: 「an invitation to the never before. 多様な視点から~」 (解説が付加)
  • コサイン類似度
    • Azure: 0.9063
    • Llama: 0.8463
    • Qwen: 0.5536

ここではAzureが高スコア。Qwenは追加文章が長かったためか、類似度が低下。


4. 大成温調の2023年度DOE

  • 正解: 3.0%
  • 回答
    • Azure: 「3.0%」
    • Llama: 「3.0%です。」
    • Qwen: 「3.0%」
  • コサイン類似度
    • Azure: 0.8320
    • Llama: 0.7406
    • Qwen: 0.7128

3モデルとも正解を示しましたが、Azureが最も近いテキストとして評価されました。


5. ダイドーグループの従業員数に関する年

  • 正解: 2013年、2015年、2016年、2017年
  • 回答
    • Azure: 分かりません。
    • Llama: 分かりません。
    • Qwen: 分かりません。
  • コサイン類似度
    • Azure: 0.1868
    • Llama: 0.1749
    • Qwen: 0.1685

全モデルが情報不足と判断したため、すべて類似度は低めに留まりました。


6. ウエルシアホールディングスの子会社数

  • 正解: 14社
  • 回答
    • Azure: 分かりません。
    • Llama: 140社以上。
    • Qwen: 46社。
  • コサイン類似度
    • Azure: 0.2065
    • Llama: 0.2658
    • Qwen: 0.3015

どのモデルも誤回答や無回答で、全体的にスコアは低めでした。


平均コサイン類似度

モデル 類似度 (平均)
Azure_OpenAI 0.6007
Llama3.3 0.5175
Qwen2.5 0.5770
  • 最終的に平均が最も高かったのはAzure_OpenAI
  • 質問によってはQwenが優位になる場合もあり、一概にすべてAzureがトップというわけではない
  • Llama3.3は回答の一部がより自然言語に近い印象だが、数字や固有名詞の正確性では若干及ばないケースが多かった

考察

  1. 質問ごとの強み・弱み

    • Qwenは「数字系の単一回答」で高スコアを出すことがあり、AzureやLlamaのように追加テキストが混ざると若干のブレが生じる点が面白い。
    • Azureはシステムプロンプトの制約を強めることで、より指定に近い形で回答を返しやすいと考えられる。
  2. 参照情報の有無

    • 参照情報が少ない場合や曖昧な表現の質問(例: ダイドーグループなど)では、全モデルが「分かりません」と回答し、類似度も低くなる。
    • RAGにおいては、ここで適切に文書検索を行うことが答えの正確性向上に大きく関わってくる。
  3. モデル更新の影響

    • LLMは日々進化しており、新しいバージョンになると回答品質や出力フォーマットも変わる可能性がある。
    • 今回の結果は実験時点の比較であることに留意する必要がある。

まとめ

  • 平均コサイン類似度ではAzure_OpenAIが最も高いという結果
  • 質問によってはQwenが数字系の回答でリードするケースもあり、全体的な精度は「Azure > Qwen > Llama」
  • ただし、RAGでの参照情報取得プロンプト設計によって回答は変わるため、プロジェクト要件に合わせたチューニングが重要

今後は検索部分の最適化LLM選定の方針を深掘りしつつ、さらに精度を上げるアプローチを検討していきたいところです。

Discussion