🐕

自然言語処理(NLP)におけるAIの評価指標をまとめてみましょう!

2025/03/04に公開

1. 生成タスク(テキスト生成・要約・翻訳)の評価指標

指標 説明 適用例 特徴
BLEU (Bilingual Evaluation Understudy) n-gram の一致率を基に翻訳品質を評価 機械翻訳、文章生成 n-gram のマッチ率に基づくが、文の流れは評価できない
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 参照文と生成文の n-gram, 長さを考慮した評価 要約、文章生成 BLEUより要約向き、Recall に重点
METEOR (Metric for Evaluation of Translation with Explicit ORdering) BLEUの欠点を補い、語順や語形変化を考慮 翻訳、要約 単語の同義語や語形変化を考慮
CIDEr (Consensus-based Image Description Evaluation) 画像キャプション生成の評価 画像キャプション生成 n-gram の頻度を考慮し、人間の評価と相関が高い
TER (Translation Edit Rate) 参照文と一致するための編集操作数 機械翻訳 低いほど良い、一致のための操作数が少ないほど評価が高い
chrF (Character F-score) 文字レベルでのFスコアを用いる 低リソース言語の翻訳 文字単位でのマッチングが可能

2. 言語モデルの評価指標

指標 説明 適用例 特徴
Perplexity (PPL) 言語モデルの予測能力の指標。低いほど良い 言語モデル(GPTなど) 分布の不確実性を示すが、人間の評価との相関は弱い
BERTScore BERT埋め込みを利用し、意味の類似度を評価 文章生成、翻訳 文の意味を考慮、単語の順番に影響されにくい
GLUE (General Language Understanding Evaluation) 文分類、テキスト含意、コアリファレンス解析の評価指標群 文理解全般 NLPタスク全体のベンチマーク
SuperGLUE GLUEの改良版、高難度タスク向け より高度な文理解 GPT系モデルの評価に使用

3. 対話システム・LLMの評価指標

指標 説明 適用例 特徴
Human Evaluation 人間が流暢さ、整合性、有用性を評価 チャットボット、QA 最も信頼性が高いが時間がかかる
Conversational Entropy 対話の多様性を測る指標 対話生成 生成文の多様性を評価
Diversity Metrics (Distinct-1, Distinct-2) 生成テキストのユニーク n-gram の割合 自然な応答生成 高いほど多様性があるが、過度に高いと一貫性が低下する
GPTScore / LLM-as-a-Judge LLMが他のモデルを評価 LLM評価 GPT系の出力の品質を定量化

4. 文書分類・検索・情報抽出の評価指標

指標 説明 適用例 特徴
Precision / Recall / F1-score 分類器の精度、再現率、バランス指標 文書分類、感情分析 タスクに応じて最適な指標を選択
Accuracy 全体の正解率 クラスバランスが取れた分類問題 クラス不均衡に弱い
AUC-ROC 分類モデルの性能を曲線で表す バイナリ分類 1に近いほど良い
MRR (Mean Reciprocal Rank) 検索結果のランキング評価 検索エンジン 検索結果の適切性を評価
NDCG (Normalized Discounted Cumulative Gain) 検索結果のランキング評価 情報検索 ランクの重要性を考慮

評価指標の選択基準

  1. 生成AI(翻訳・要約・文章生成)BLEU, ROUGE, METEOR, CIDEr
  2. 言語モデル(GPT, BERT, Transformer)Perplexity, BERTScore, GLUE, SuperGLUE
  3. 対話システム(チャットボット, QA)Human Evaluation, Diversity Metrics, GPTScore
  4. 文書分類・検索・情報抽出F1-score, AUC-ROC, MRR, NDCG

まとめ

  • BLEU, ROUGE, METEOR翻訳・要約・文章生成向け
  • Perplexity, BERTScore言語モデルの評価 に使用。
  • MRR, NDCG検索エンジンや情報検索 に適用。
  • Diversity Metrics対話システム の評価に有効。

評価指標は目的に応じて適切なものを選択することが重要です!

Discussion