📖

Gemini Pro で日本語文章の自動評価を行う試み

2023/12/25に公開

背景

日本語(対応) LLM 作った(作りたい)けど, 評価どうしよ...

人力評価めんどいぽよ...

JGLUE とかあるけど機械的よね...
行間を読む感じのをいい感じに自動評価してほしいぽよね...

ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

ありがとうございます!

GPT-4 で自動評価は ELYZA ちゃん始め, みなさん多くやられているので, 今回は Gemini Pro 使ってみます.

すわ Winklevoss twins の Gemini crypto platform の Pro 版か!? と思わせつつ,
実際のところはジェネリック GPT-4 カナ. 執筆時点(2023/12/25)で無料利用できるのと, 反応が速いので試してみました.

GPT-4 ほとんど使ったことが無い 68 才主ふであるが, GPT-4 使える方はおとなしく GPT-4 使ったほうがよい気はします... 速度としては Gemini Pro のほうが速いカモ?

たとえば gases nobles が「貴ガス」に翻訳されたりという不都合は残っています...

なんとも微妙な規約です...
とはいえ, 自動評価に使うぶんにはあまり問題はなさそうでしょうか.

雑に prompt 作って評価させてみましたが, いい感じでした!

oasst1 の翻訳文の比較にも使ってみました.

翻訳比較に使った文章はこちら

おおー, 理由も記述されておりよいですね.
(翻訳については, Gemini Pro で翻訳させるのが本当は手っ取り早いが, 利用規約で生成結果(翻訳結果)を公開/シェアできない)

翻訳文の評価をうまく定量化できると, 点数ベースで採点できてよさそう.

ぴぇ... 🥺

Qwen 72B あたりで自動評価できるか試してみる.

そうすると, ローカルで自動評価しほうだいになりますし, DPO(Direct Preference Optimization) や BPO(Blackbox prompt optimization)などによるファインチューンの最適化もローカルでやり放題になります(のはず)

API で ELYZA-Task 100 を一括評価する
open-ended task 用に, "text-book" like なタスクと評価基準が作成できないか検討してみる(学習指導要領あたりを参考にいい感じに作れたりしないかしらん)
翻訳文章の点数付け(品質スコアリング)をうまくやる prompt を考案したい