🐕
自然言語処理(NLP)におけるAIの評価指標をまとめてみましょう!
1. 生成タスク(テキスト生成・要約・翻訳)の評価指標
指標 | 説明 | 適用例 | 特徴 |
---|---|---|---|
BLEU (Bilingual Evaluation Understudy) | n-gram の一致率を基に翻訳品質を評価 | 機械翻訳、文章生成 | n-gram のマッチ率に基づくが、文の流れは評価できない |
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) | 参照文と生成文の n-gram, 長さを考慮した評価 | 要約、文章生成 | BLEUより要約向き、Recall に重点 |
METEOR (Metric for Evaluation of Translation with Explicit ORdering) | BLEUの欠点を補い、語順や語形変化を考慮 | 翻訳、要約 | 単語の同義語や語形変化を考慮 |
CIDEr (Consensus-based Image Description Evaluation) | 画像キャプション生成の評価 | 画像キャプション生成 | n-gram の頻度を考慮し、人間の評価と相関が高い |
TER (Translation Edit Rate) | 参照文と一致するための編集操作数 | 機械翻訳 | 低いほど良い、一致のための操作数が少ないほど評価が高い |
chrF (Character F-score) | 文字レベルでのFスコアを用いる | 低リソース言語の翻訳 | 文字単位でのマッチングが可能 |
2. 言語モデルの評価指標
指標 | 説明 | 適用例 | 特徴 |
---|---|---|---|
Perplexity (PPL) | 言語モデルの予測能力の指標。低いほど良い | 言語モデル(GPTなど) | 分布の不確実性を示すが、人間の評価との相関は弱い |
BERTScore | BERT埋め込みを利用し、意味の類似度を評価 | 文章生成、翻訳 | 文の意味を考慮、単語の順番に影響されにくい |
GLUE (General Language Understanding Evaluation) | 文分類、テキスト含意、コアリファレンス解析の評価指標群 | 文理解全般 | NLPタスク全体のベンチマーク |
SuperGLUE | GLUEの改良版、高難度タスク向け | より高度な文理解 | GPT系モデルの評価に使用 |
3. 対話システム・LLMの評価指標
指標 | 説明 | 適用例 | 特徴 |
---|---|---|---|
Human Evaluation | 人間が流暢さ、整合性、有用性を評価 | チャットボット、QA | 最も信頼性が高いが時間がかかる |
Conversational Entropy | 対話の多様性を測る指標 | 対話生成 | 生成文の多様性を評価 |
Diversity Metrics (Distinct-1, Distinct-2) | 生成テキストのユニーク n-gram の割合 | 自然な応答生成 | 高いほど多様性があるが、過度に高いと一貫性が低下する |
GPTScore / LLM-as-a-Judge | LLMが他のモデルを評価 | LLM評価 | GPT系の出力の品質を定量化 |
4. 文書分類・検索・情報抽出の評価指標
指標 | 説明 | 適用例 | 特徴 |
---|---|---|---|
Precision / Recall / F1-score | 分類器の精度、再現率、バランス指標 | 文書分類、感情分析 | タスクに応じて最適な指標を選択 |
Accuracy | 全体の正解率 | クラスバランスが取れた分類問題 | クラス不均衡に弱い |
AUC-ROC | 分類モデルの性能を曲線で表す | バイナリ分類 | 1に近いほど良い |
MRR (Mean Reciprocal Rank) | 検索結果のランキング評価 | 検索エンジン | 検索結果の適切性を評価 |
NDCG (Normalized Discounted Cumulative Gain) | 検索結果のランキング評価 | 情報検索 | ランクの重要性を考慮 |
評価指標の選択基準
- 生成AI(翻訳・要約・文章生成) → BLEU, ROUGE, METEOR, CIDEr
- 言語モデル(GPT, BERT, Transformer) → Perplexity, BERTScore, GLUE, SuperGLUE
- 対話システム(チャットボット, QA) → Human Evaluation, Diversity Metrics, GPTScore
- 文書分類・検索・情報抽出 → F1-score, AUC-ROC, MRR, NDCG
まとめ
- BLEU, ROUGE, METEOR は 翻訳・要約・文章生成向け 。
- Perplexity, BERTScore は 言語モデルの評価 に使用。
- MRR, NDCG は 検索エンジンや情報検索 に適用。
- Diversity Metrics は 対話システム の評価に有効。
評価指標は目的に応じて適切なものを選択することが重要です!
Discussion