📖

Gemini Pro で日本語文章の自動評価を行う試み

2023/12/25に公開

背景

日本語(対応) LLM 作った(作りたい)けど, 評価どうしよ...

https://zenn.dev/syoyo/articles/52f1d0d62fcad5

人力評価めんどいぽよ...

JGLUE とかあるけど機械的よね...
行間を読む感じのをいい感じに自動評価してほしいぽよね...

https://zenn.dev/syoyo/articles/59a5ccbbb5660e

ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
https://qiita.com/wayama_ryousuke/items/105a164e5c80c150caf1#gpt-4-による自動評価

ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編
https://zenn.dev/elyza/articles/5e7d9373c32a98

ありがとうございます!

GPT-4 で自動評価は ELYZA ちゃん始め, みなさん多くやられているので, 今回は Gemini Pro 使ってみます.

Gemini Pro とは?

すわ Winklevoss twins の Gemini crypto platform の Pro 版か!? と思わせつつ,
実際のところはジェネリック GPT-4 カナ. 執筆時点(2023/12/25)で無料利用できるのと, 反応が速いので試してみました.

GPT-4 ほとんど使ったことが無い 68 才主ふであるが, GPT-4 使える方はおとなしく GPT-4 使ったほうがよい気はします... 速度としては Gemini Pro のほうが速いカモ?

たとえば gases nobles が「貴ガス」に翻訳されたりという不都合は残っています...

https://x.com/syoyo/status/1737249726498820304?s=20

利用規約

https://cloud.google.com/trustedtester/aitos

https://x.com/kam0shika/status/1737377637042209221?s=20
https://x.com/syoyo/status/1737379325811536220?s=20

なんとも微妙な規約です...
とはいえ, 自動評価に使うぶんにはあまり問題はなさそうでしょうか.

試す

雑に prompt 作って評価させてみましたが, いい感じでした!

https://x.com/syoyo/status/1739008185598648730?s=20

翻訳の比較

oasst1 の翻訳文の比較にも使ってみました.

翻訳比較に使った文章はこちら

https://github.com/kunishou/oasst1-89k-ja/pull/21

おおー, 理由も記述されておりよいですね.
(翻訳については, Gemini Pro で翻訳させるのが本当は手っ取り早いが, 利用規約で生成結果(翻訳結果)を公開/シェアできない)

翻訳文の評価をうまく定量化できると, 点数ベースで採点できてよさそう.

おまけ

ぴぇ... 🥺

さらなる高みへ

Qwen 72B あたりで自動評価できるか試してみる.

そうすると, ローカルで自動評価しほうだいになりますし, DPO(Direct Preference Optimization) や BPO(Blackbox prompt optimization)などによるファインチューンの最適化もローカルでやり放題になります(のはず)

TODO

  • API で ELYZA-Task 100 を一括評価する
  • open-ended task 用に, "text-book" like なタスクと評価基準が作成できないか検討してみる(学習指導要領あたりを参考にいい感じに作れたりしないかしらん)
  • 翻訳文章の点数付け(品質スコアリング)をうまくやる prompt を考案したい

Discussion