paper review: 原文と要約文の「意味の一貫性」を評価する
論文タイトル: MQAG: Multiple-choice Question Answering and Generation for Assessing Information Consistency in Sum[1]
概要
テキスト要約において、要約文と元の文の意味の一貫性を評価する指標を提案した論文。要約文から選択肢解答型の質問を生成し、要約文、元の文をそれぞれコンテクストとして与えた上で、同じモデルの回答結果の確率分布の類似度よって間接的に意味の一貫性を評価する。評価の結果、既存の手法と比べて人間の評価結果との高い相関性を示した。
背景
この分野で伝統的に使われてきたBLUEなどの評価メトリクスはn-gramに基づくものであり、人間の評価との乖離が指摘されていた。また、既存手法にもソーステキストまたは要約テキストから質問を生成する手法は存在したが、「いずれも生成テキストのマッチングを元にしたもの」だった。「提案手法は表現領域における比較ではなく、確率分布というより抽象的なメトリクスを比較することで、より意味に即した評価が可能となる」といった趣旨のことを著者らは述べている。
所感
面白い手法だが、「質問生成モデル」と「QA解答モデル」を別に学習する必要があるのがネックになると思われる。評価の性能(意味的な一貫性との類似性)についてはこれらのモデルの学習内容にも左右されるため、扱いが微秒であるように思える。例えば、QA解答モデルがコンテクストを無視して自分の知識に基づいて解答した場合はソーステキストと要約テキストの類似性を評価しているとは言えないし、また、質問生成モデルがうまく原文の意味を拾えなかった場合は意味的に同じ文章にもかかわらず異なると判定されてしまう。
BLUEは「人間の評価と比べて現状では相関性が高い指標」として広く言語モデルの定量評価に使われているが、形式的な評価(n-gramベース)にすぎないというのは知らなかった。