Gemini Pro で日本語文章の自動評価を行う試み
背景
日本語(対応) LLM 作った(作りたい)けど, 評価どうしよ...
人力評価めんどいぽよ...
JGLUE とかあるけど機械的よね...
行間を読む感じのをいい感じに自動評価してほしいぽよね...
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編
ありがとうございます!
GPT-4 で自動評価は ELYZA ちゃん始め, みなさん多くやられているので, 今回は Gemini Pro 使ってみます.
Gemini Pro とは?
すわ Winklevoss twins の Gemini crypto platform の Pro 版か!? と思わせつつ,
実際のところはジェネリック GPT-4 カナ. 執筆時点(2023/12/25)で無料利用できるのと, 反応が速いので試してみました.
GPT-4 ほとんど使ったことが無い 68 才主ふであるが, GPT-4 使える方はおとなしく GPT-4 使ったほうがよい気はします... 速度としては Gemini Pro のほうが速いカモ?
たとえば gases nobles
が「貴ガス」に翻訳されたりという不都合は残っています...
利用規約
なんとも微妙な規約です...
とはいえ, 自動評価に使うぶんにはあまり問題はなさそうでしょうか.
試す
雑に prompt 作って評価させてみましたが, いい感じでした!
翻訳の比較
oasst1 の翻訳文の比較にも使ってみました.
翻訳比較に使った文章はこちら
おおー, 理由も記述されておりよいですね.
(翻訳については, Gemini Pro で翻訳させるのが本当は手っ取り早いが, 利用規約で生成結果(翻訳結果)を公開/シェアできない)
翻訳文の評価をうまく定量化できると, 点数ベースで採点できてよさそう.
おまけ
ぴぇ... 🥺
さらなる高みへ
Qwen 72B あたりで自動評価できるか試してみる.
そうすると, ローカルで自動評価しほうだいになりますし, DPO(Direct Preference Optimization) や BPO(Blackbox prompt optimization)などによるファインチューンの最適化もローカルでやり放題になります(のはず)
TODO
- API で ELYZA-Task 100 を一括評価する
- open-ended task 用に, "text-book" like なタスクと評価基準が作成できないか検討してみる(学習指導要領あたりを参考にいい感じに作れたりしないかしらん)
- 翻訳文章の点数付け(品質スコアリング)をうまくやる prompt を考案したい
Discussion