🔥

JCommonsenseQAによるPLaMo-13Bの再現評価

2023/09/29に公開

概要

2023.09.28にPFNによる日本語、英語の2言語に対応した13Bパラメータの巨大言語モデルPLaMo-13Bがリリースされた[1]。本稿はPLaMo-13Bに対し、JCommonsenseQAによるベンチマークの再現評価を行なった結果を報告する。1-shotの評価結果はPFNの公開した値と近い値となり、本稿の結果はPFNが公開した結果の妥当性を部分的に支持するものとなった。

また、本稿で評価に用いたソースコードはMITライセンスで公開する[4]。

経緯

PLaMo-13Bは事前学習を行なったのみで、人間との対話に基づく出力結果のfine-tuningを行っていないため、Chat-GPTのように人間との自然な会話を行えるようには調整されていない。少なくとも自分が手元で試した限りは、サンプルコード[2]に従って通常のテキスト生成を行ったが、モデルの性能について定性的な判断をすることが難しかった。そこで、PFN用いたベンチマークの再現評価をすることにした。

評価方法

評価対象モデル

PLaMo-13B[2]および比較のためJapanese StableLM Alpha 7B[5]について評価した。

評価用データ

ベンチマークとしてJCommonsenseQAのをvalidationデータを用いた[3]。

1-shot の性能評価

LLMの1-shotの性能評価では、質問と回答の形式を指定した例文をコンテクストとしてプロンプトに与えるのが一般的のようなので[6]、ここでも同様の形式を採用した。

プロンプト例

以下のような形式のプロンプトを与える。

### 例 ###
{模範的な応答例}

質問: {質問のテキスト}
choice0: {選択肢0}
...
choice4: {選択肢4}
回答:

具体的には以下のようになる:

### 例 ###
質問: 主に子ども向けのもので、イラストのついた物語が書かれているものはどれ?
choice0: 世界
choice1: 写真集
choice2: 絵本
choice3: 論文
choice4: 図鑑
回答: 絵本

質問: ポストに入れたハガキを送るのは何と言う?
choice0: 郵便
choice1: デスク
choice2: ファクシミリ
choice3: 電子メール
choice4: キャビネット
解答:

回答の生成方法

decode方式はランダムサンプリングではなく最大確率の系列を取得した。また、post processingとして、余計なトークンを含まないように最初の改行の直前までのテキストを回答とした。

正答・誤答の判定は、回答の選択肢のテキスト(例: 上の例では郵便)とモデルの生成したテキストが一致するかどうかとした。

評価指標について

評価指標は[1]と同様にnormalized accuracyを用いた。これは正解クラスの分布の不均衡を是正するための指標で、以下のように定義される。

\text{acc\_norm} = \frac{1}{C} \sum_{i=1}^{C} \text{acc}_i

今回のケースでは正解の選択肢の提示順序の影響を除外することに相当する。

結果

1-shotの評価結果ではPLaMo-13Bのacc_normが54.8%となり、PFNの公開している値(53.4%)と概ね近い値となった。一方で、Japanese StableLM Alpha 7BについてはFPNにより報告された値(75.9%, 27.7%)と大きく乖離する結果となった。PFNの報告[1]でもpromptを変更することで27.7%から75.9%と大幅に性能が異なることから、このモデルはこのデータセットに関してはpromptへの依存が強いのかもしれない。

なお、PLaMo-13Bモデルの典型的な誤答についてはAppendix Aに示す。

表1. JCommonsenseQAデータにおける評価結果

model acc_norm (1-shot) acc_norm (reported in [1])
PLaMo-13B[2] 54.8 53.4
Japanese StableLM Alpha 7B[3] 51.0 75.9 (27.7*)

* without changing prompt

結論

本稿はJCommonsenseQAによるPLaMo-13Bの再現評価の結果について報告した。1-shotの評価結果はPFNの公開した値と近い値となり、本稿の結果はPFNが公開した結果の妥当性を部分的に支持するものとなった。

本稿が今後基盤言語モデルを評価するさいの手順の一つとして参考になれば幸いである。

参考資料

Appendix

A. 誤答例

JCommonsenseQAの評価におけるPLaMo-13Bモデル(1-shot)の誤答例を以下に示す。一般的な傾向としては以下のような傾向が見られた:

  1. 質問で使われた言葉によってミスリードされたと思われるもの
  2. 概念的に近いが誤っているもの
  3. 正しいと言えなくもないが、一般常識と照らして誤っているもの
  4. 基本的に正しいが、より適切な別の選択肢が存在するもの
  5. 全く文脈が異なりなぜそれを選択したか不明なもの
# 1. 質問で使われた言葉によってミスリードされたと思われるもの
問題: 冷えたものを温まるのに使うものは?
選択肢: 八百屋, 電子レンジ, 冷蔵庫, 収穫, 冷凍庫
正答: 電子レンジ
モデルの回答: 冷蔵庫

# 2. 概念的に近いが誤っているもの
問題: 窓を拭くときに使う洗剤は?
選択肢: ウインドークリーナー, ウインドーディスプレー, 石鹸, こめぬか, ウインドーペイン
正答: ウインドークリーナー
モデルの回答: こめぬか

# 3: 正しいと言えなくもないが、一般常識と照らして誤っているもの
問題: 食卓にかけるものは?
選択肢: スチュワーデス, テーブルクロス, 醤油, シートベルト,正答: テーブルクロス
モデルの回答: 醤油

# 4. 基本的に正しいが、より適切な別の選択肢が存在するもの
問題: 心の拠り所になるものは?
選択肢: 宗教, 職場, キャンドル,, 尖塔
正答: 宗教
モデルの回答:# 5. 全く文脈が異なりなぜそれを選択したか不明なもの
問題: 小さい島の集まりは?
選択肢: 信号機, 天津飯, マーシャル諸島, 東南アジア, 関東
正答: マーシャル諸島
モデルの回答: 信号機
GitHubで編集を提案

Discussion