🐷

質問応答向けの新しいデータセット「QuALITY」(後編)

2022/07/09に公開

はじめに

おはようございます。今回は、質問応答向けの新しいデータセット「QuALITY」(Question Answering with Long Input Text, Yes!)について以前書いた記事(質問応答向けの新しいデータセット「QuALITY」(前編))の後編です。

※QuALITYについての元となる記事はこちらです。
QuALITY: Question Answering with Long Input Texts, Yes!

後編の内容

予定変更して、QuALITYのデータ自体に焦点を当てることにしました。
今回の狙いは、実際にデータを見て、データの実用性を検証することです。結果、今回見たデータの実用性は高そうでした。

問題例

それでは、QuALITYにある問題の一例を紹介します。

問題の内容

長くなるので、ひとまず今回はある1つの記事のうち最初の約7分の1のみに絞り、問題数も最初の1問だけにしています。

問題の出典

データセットはこのページにあります(QuALITYの論文からもアクセスできます)。
https://github.com/nyu-mll/quality

ひとまず今回は試しに、このリポジトリのdataフォルダの中にあるtrainのファイルを選びました。さらに、そのファイルの中にある2番目の記事を選びました。
(意図は特にないです。trainはなんとなく選びました。trainの1番目の記事を眺めたあとに2番目の記事を見て、なんとなく2番目の記事を選んだだけです。)

問題の考察

考察した結果、少なくとも今回の問題に限って言うと、実用性の高そうなデータだと思いました。これから説明するように、記事の全体的な理解が求められます。また、かつてのデータセットに比べて、記事自体の分量も多いです。

ここであらかじめ断っておきますが、問題や選択肢自体の細かい説明は省略します。あまり本筋ではないのと、そもそも私が時間をかけても十分に理解できないためです…。

所感

まず所感としては、思った以上に難しいです。
とりあえず最初の数段落の中から答えの手掛かりを探そうとしましたが、全然分からず。それで早々にあきらめました(全体で5,000単語規模の記事なので、無理もないです)。
それに、記事は英語なのでただでさえ読むのに苦労します。

この問題はHARDかEASYか

HARDの部類でした。Speed Validationにおいて、正解した人は5人中2人だけでした。後述するようにこの問題は結構難しいので、この正答率はうなずけます。
ちなみに、Untimed Validationにおいては3人中3人が正解しました。

答えの手掛かりのある位置

上に載せた記事のかなり下のほうにある、「"I was in your burner room.」で始まる段落の中に、答えの手掛かりがありました。それに対し、control(ある制御装置のこと)に異常が生じた旨の記述があったのは、だいぶ最初に近い位置です。
そのため、問題と関係のある記述の近くだけを読んでも、答えの手掛かりは全然つかめません。これだけでも、それなりにやっかいです。

求められる文脈把握1

この問題の正答を難しくする要素は、他にもあります。それは、記事の文脈の把握が求められることです。
この問題の答えの決定的な手掛かりはこちらです(先ほど説明した段落の真ん中あたり)。

So I moved one of your controls a tiny bit.

この文の主語「I」が、controlを動かしていたことが分かります。しかし、このIが誰なのかをつかまないと、正答するのは難しいです。よく名前が出てくるO'Rielly(主人公と見られる男性)のことだろう、と勝手に推測して選択肢2を選ぶと、間違いになります。このIは別の人物です。

求められる文脈把握2

不正解の選択肢も引っかかりやすそうです。例えば、

Swiftly O'Rielly unlocked the controls and reset them.

という記述が記事中にあります。これだけを見ると、O'Riellyの行動が原因だと考えて選択肢2を選んでしまいそうです。

また、記事中には

"So a control reset itself in flight, hey?"

という記述もあります。これだけに捉われると、選択肢1を選んでしまいそうです。
そういう誤答を選ばないためには、記事の全体的な理解が求められます。

この問題についてのまとめ

この問題の特徴を整理すると、次のようになります。これらの双方の特徴を併せ持っていることは、この問題の実用性を示していると思います。

  • 記事が長文(5,000単語規模)
  • 記事の文脈や全体像の理解が求められる。

終わりに

今回の記事は以上です。ありがとうございました。

Discussion