👌

NLP2024 クイズ関連

2024/03/20に公開

※逐次更新する

NLP2024

https://www.anlp.jp/nlp2024/

NLP2024タイトル検索
NLP2024アブストラクト一覧ページ

※オンライン聴講のみ。しかも一部のみ。読んでいないもの、聴講していないものが多数。
※スライド・ポスターは参加者かぎり。

タイトルに「クイズ」を含むもの

  • A1-5 多様なクイズを自動生成する手法およびその検証
    ○小林俊介, 河原大輔 (早大)
    • 多様性のあるクイズを作りたい。
    • QAでのFusion-in-Decoderに着想して、正解と複数コンテキストそれぞれをエンコードしたものを結合してから、問題を生成。複数文書を意識した問題になることを期待。
    • 解答とコンテキストから問題生成する形式から、コンテキストから問題と回答を生成する形式へ。
    • 多様性を念頭に学習時の損失も制御。
    • ※複数のコンテキストをエンコードして結合して与えているが、だからとそれぞれのコンテキストを反映するようになるとは言い切れないかも。とくに狙っているはずの複数コンテキストの情報を組み合わせないと解けないことをどう実現するか(。。。はNLP2023分だったか)
  • E2-3 嘘がなく、面白いクイズの自動生成
    ○島田克行, 折原良平, 森岡慎太森岡靖太, 市川尚志 (キオクシア)
     - ※氏名チェックが甘いままOKを出してしまった..
    • wikipedia記事のそれぞれの文がクイズの素材として選ばれやすいか(=面白い)、既存のクイズの問題文との文類似度に基づいたランキングけモデルを提案し、これを用いて記事からクイズにすれば面白いだろう文を推薦する。作問例として、それをもとにone-shot-promptingにてChatGPTにて作問させた。
    • ※クイズの問題文に選ばれる内容には何らかの特徴があって、それをつかみたい研究。その特徴を説明できるようになると、よいのだろうと思う。前振りと後限定それぞれに適した文というのもあるだろう。また、前振りと後限定それぞれ独立に選択して結合させればよいというものでもないだろう。
  • C3-6 絵本を題材とするクイズの生成と評価
    ○水上雅博, 藤田早苗, 小林哲生 (NTT)
    • 先行研究のほとんどは「大人」の「一般常識」を問うクイズ。本研究は「子ども」の「読んだ絵本」の理解度を問うクイズ
      • 絵本を読んでいない子どもはわからない
      • 絵本を読んだ子どもなら簡単に答えられる
      • 絵本以外の知識を要さず,一般常識などからくる推測が不要
    • 絵本150冊に対して人手でクイズデータを作成。インストラクションチューニング用の形式に変換
      • いきなりクイズと回答の両方を生成するのは難しいと想定。学習データの量が少ない,生成の自由度が高すぎる
      • 回答を指示に含めたうえで,クイズのみ生成するタスクを設定 (※ answer-aware-question-generation)
        • (1) 単語親密度などの基準で回答を選択可能にする→今後の課題として難易度調整等を想定
        • (2) 生成したクイズの人手評価および答え合わせを簡略化する→人手評価のコスト
    • tsuzumi 7BをLow-Rank Adaptation
    • 質問応答や質問生成とのroundtripのマルチタスク設定を含めて、全部入り設定が最良。
      • refがクイズ生成の評価に強く影響
      • 最良のモデルの生成結果で,50%が「絵本のクイズとして妥当」,30%が「答えに対しても妥当」
      • マルチタスク学習はうまく動いたが,クイズ生成の評価には寄与しなかった
        • ※以前、T5ベースでやった時も似たような感じだったな。。
    • 今後
      • 生成したクイズで「子どもの絵本の理解度」を測れるか調査
      • ハルシネーションに起因する不適切なクイズ文の抑制
      • (誤答も含めた) 4択問題の生成
  • P5-3 早押しクイズの名数問題における解の妥当性を考慮した解答をするための CoT プロンプトの構築
    ○杉山宏輝, 角康之 (未来大)
    • 問題文の前半(前振り)で名数(夏の大三角、四大文明、五大湖など)が提示され、後半でその要素を列挙し、残り1つを問う形式の構文について、CoT(Chain-of-Thought)思考過程をいくつかのステップに分けて考えることで、精度の向上を図る手法
      • ※要は、どの選択肢が最後に来るか=正解かをCoTプロンプトにて順序だてて予測させるもの。
    • 思考過程の有無が最終的な答えに影響を与えることを確認。解答内容に偏りが見られた(順序23%, 難易度7%, 類似3%, 仲間外れ0.6%, その他66%)
    • StableLM7b+標準プロンプトの正解率0.1547 → StableLM7b+CoT 0.1977
    • ※クイズであればこう問われるはずだとどこまで想像できるか。CoTでの例示次第でもう少し向上させられるかもしれない。
    • ※評価はAI王データセットだが、LMの学習データに含まれているのではないかと危惧する。huggingface datasetで容易に手に入るし。
    • ※そのまま、クイズ生成にも使えるか。読まれやすいパターンの問題を作りやすくなるが。
  • D7-3 早押しクイズにおける超次単語予測の認知モデリング
    ○山下陽一郎, 原田宥都, 大関洋平 (東大)
  • WS3: JLR2024 : 4択クイズを題材にした多肢選択式日本語質問応答データセットの構築
    ○鈴木正敏 (東北大/StudioOusia)

    言語モデルが保持する実世界の事物に関する知識(世界知識)を評価するベンチマークとして、高品質な質問応答データセットは不可欠である。近年、日本語に特化した複数の大規模言語モデルが開発・公開されているが、それら日本語のモデルが持つ世界知識を評価するために利用可能な日本語による質問応答データセットは少なく、日本語の自然言語処理研究の進展を遅らせる要因となっている。そこで我々は、日本語の質問応答データの題材として、国内のクイズ大会で実際に使用された4択クイズの問題を用い、日本語の多肢選択式の質問応答データセットを構築した。本発表では、構築したデータセットの特徴について紹介するとともに、データセットを用いて既存の日本語大規模言語モデルを評価した実験の結果について報告する。

関連:言葉関連の遊び・クリエイティブ

対象:俳句・短歌・川柳・ダジャレ・ジョーク・広告

  • P4-9 短歌固有の属性に対応する脳内情報表現
    ○佐藤杏奈 (お茶大), 近添淳一, 船井正太郎 (アラヤ), 持橋大地 (統数研), 小林一郎 (お茶大)
  • P11-10 文を入力とした俳句の自動生成
    ○大山野乃子, 杉本徹 (芝浦工大)
    • 入力文の内容・単語を反映した俳句を生成するようjapanese-gpt2-mediumをファインチューニング
    • 俳句中の単語に基づいて学習させたモデルと、俳句の鑑賞文の単語に基づいて学習させたモデル。
    • 前者は入力文の単語を反映した俳句を生成しやすく、後者は人の好みに沿う。(後者は、入力文中の単語をいったん意味的に解釈している?)
  • P11-21 おもしろい川柳の生成
    ○太田聖三郎, 河原大輔 (早大), 野村理朗 (京大)
    • 既存の俳句生成(※北大のAI一茶くんPJを指すと思われる)は、生成後にフィルタリングを実施。完全end-to-endで生成したい。
    • 3ステップの学習
      1. 音数・トピック数の指定を反映できるよう学習 (Poelm-ja)
      2. 川柳の構造を反映した学習(SenryuGPT)
      3. 面白さの学習(SenryuGPT-ppo) 川柳嗜好データセットを構築・報酬モデルを学習
    • ベースモデル: 日本語GPT-2 (rinna/japanese-gpt2-medium)
    • ベースラインを上回るが、人間が確実におもしろいと思える川柳からはまだ遠い
  • P11-26 RLHFを用いた「面白い」短歌の自動生成の試み
    ○羽根田賢和 (東北大), 浦川通, 田口雄哉, 田森秀明 (朝日新聞社), 坂口慶祐 (東北大/理研)
    • 短歌に⼈間の好みを基準としたスコアを付ける報酬モデルを作成し、これを用いて強化学習(PPOに基づくRLHF)。
    • 報酬モデルでのスコアが⾼い、⼈間に「⾯⽩い」と感じさせやすい短歌が⽣成可能に
       - tanka SNSからの「いいね」に基づいたスコア設計に工夫。それ以外の手法は素直?
       - 報酬モデルのベースはrinna-roberta。生成モデルのベースはjapanese-large-lm
  • P11-18 訴求軸を考慮したキーワードからの広告文生成
    ○村田栄樹 (早大), 大友寛之, 村上聡一朗, 本多右京, 舟久保弘明 (サイバーエージェント)
  • E2-5 新聞記事からの都々逸生成のための訓練データの作成手法と生成アルゴリズムの改良
    ○高昕, 小坂想太朗, 佐山龍之介, 松崎拓也 (東京理科大)

※ 人の嗜好をモデル化した報酬モデルを利用した強化学習(RLHF)が多い。現時点だと報酬モデルを介さないDPOを用いることが一般的だろう。ツールも整備されているし。
※ 一方、人の嗜好を一次元で表現するのは強すぎる仮定であることは誰の目にも明らかで(でも、ひとまず動かすには仕方ないし、平均的な嗜好を対象とするなら十分だろう)、いろいろな試みがあると思う。対象年齢などは入力条件に含めるものがちらほらみられる。対象年齢など条件をそろえたうえでの好ましさをモデル化することになるのだろう。

関連:質問生成・問題作成・評価・難易度制御など

  • P4-21 項目反応理論を用いた難易度調整可能な多肢選択式読解問題自動生成
    ○富川雄斗, 宇都雅輝 (電通大)
    • LLaMA 2を用いて難易度調整可能な多肢選択式問題自動生成手法を開発.
      • BERT・ALBERT・RoBERTa・DeBERTaをベースとした能力の異なる400個のQAシステムから正誤反応データを取得し,難易度を含んだデータセットを作成
      • 難易度調整可能な多肢選択式の問題を生成するようにLLaMA 2をファインチューニング
      • 難易度を指定して問題を生成し, QAシステムによる正答率を評価
    • 指定した難易度が高くなるほど正答率が低下➔ 難易度調整ができている
      • 一方、GPT-4によるFew-shot学習では問題生成の難易度調整が困難だった(なので、本提案が有効だとの主張)※ポスターにのみ記載。
  • E11-4 自然言語処理の教育応用において学習者集団に非依存な難度の尺度は本当に必要か?
    ○江原遥 (東京学芸大)
    • ※上記とは異なり? GPT-4でも難度指定できそうだ(定性的に)としている。
    • ※文中、表3~表11との記述は実際には図3~図11。
  • A3-6 LLM はユーザーに適したテキストの難易度を暗黙的に考慮しているのか?
    ○郷原聖士, 上垣外英剛, 渡辺太郎 (NAIST)
  • C3-2 長文生成の多面的評価:人手評価と自動評価の向上を目指して
    ○鴨田豪 (東北大), 浅井明里 (ワシントン大), Ana Brassard (理研/東北大), 坂口慶祐 (東北大/理研)
  • A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
    ○関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード)

関連:事実検証など

B8-1 都議会議事録における自動要約のための数値情報自動修正手法の提案
○松井我颯, 中島陽子, 本間宏利 (釧路高専), 秋葉友良, 石川晴基 (豊橋技科大)
B8-2 大規模言語モデルによる時系列を考慮したフェイクニュース生成
○原悠貴, Yin Jou Huang, Fei Cheng (京大)
B8-4 科学技術論文を対象とした根拠付き生成型要約システムの構築
○笠原智仁, 村田栄樹, 河原大輔 (早大)

関連:解説生成

P7-18 サッカー実況中継を付加的情報の提供という側面から見る
○森雄一郎, 前川在, 小杉哲, 船越孝太郎 (東工大), 高村大也 (産総研), 奥村学 (東工大)

関連:その他

C3-3 日本語Natural QuestionsとBoolQの構築
○植松拓也, 王昊, 河原大輔 (早大), 柴田知秀 (LINEヤフー)
C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
○田中涼太 (NTT/東北大), 壱岐太一, 西田京介, 齋藤邦子 (NTT), 鈴木潤 (東北大)
C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
○大南英理 (NAIST), 栗田修平 (理研), 宮西大樹 (ATR), 渡辺太郎 (NAIST)

A2-1 大規模言語モデルは自身の Hallucination を検知できるか?
○門谷宙, 西田光甫, 西田京介, 齋藤邦子 (NTT)

A4-1 日本語論理推論ベンチマークJFLD の提案
○森下皓文 (日立), 山口篤季 (シェフィールド大), 森尾学, 角掛正弥, 友成光, 今一修, 十河泰弘 (日立)
A4-2 NeuBAROCO データセットによる大規模言語モデルの推論能力の検証
○森下貴允, 安東里沙子, 阿部裕彦 (慶應大), 小関健太郎 (慶應大/東大), 峯島宏次, 岡田光弘 (慶應大)
A4-4 制約が異なる指示で生成された文章に対するLLM生成検出の頑健性
○小池隆斗 (東工大), 金子正弘 (MBZUAI/東工大), 岡崎直観 (東工大)
P6-13 生成 AI は含意関係認識ができるのか
○荒沢康平, 狩野芳伸 (静大)
P6-15 日本語TruthfulQAの構築
○中村友亮, 河原大輔 (早大)
P8-9 ニュースソースの違いによるフェイクニュース検出と問題点
○岸祐輝, 中川翼, 彌冨仁 (法政大)
P8-10 大規模言語モデルを用いたニュース類似度の算出
○井本稔也 (JDD)
P10-23 知識グラフに基づくルールベースよるFact Verificationとその拡張手法の考察
○籾井裕貴, 滝口哲也, 有木康雄 (神戸大)

参考:論文誌:AI王解答部門の分析

参考:参加者ブログなど

  • #NLP2024 にエア参加してみた #NLP2024, - Qiita

    • 松林逹史さん@今はどこ?

      P11-10 文を入力とした俳句の自動生成
      GPT-2 をFinetuning。API使ってGPT-3.5 turbo をFTした方が良いんじゃないか?というのは気になるところ。なんなら評価もGPT-4 にもやらせてみるべきだよね、とは思う。去年のNetEcoでも俳句生成の話が上がって、「これからはChatGPTに駆逐されるのでは?」という話が上がったのだが、個人的には結局俳句の評価の研究はまだまだ残ると思ったので気にはなる分野。あと、俳句系の研究見るといつも思うんだけど、伊藤園の“伊藤園お~いお茶新俳句大賞”のデータって研究目的ならクロールして使っていいのだろうか? https://itoen-shinhaiku.jp/

  • 学会を楽しむ余裕が必要だ - 超言理論

    • 水上雅博さん@NTT-CS研 C3-6の発表者

      昨年の言語処理学会ではクイズに関する研究が複数あり,今年もAI王などのクイズに関する取り組みがあったため,多数の,セッション1つくらいの発表があるかなと思ったが,予想に反してクイズに関する発表を集めたセッションはなく,質問応答や言語生成などのセッションに散らばっていた*4.

      特に,自分の発表,参加したセッションの後はそのセッションで近い発表をしていた人や,興味のある人に声をかけて突発懇親会的なことが行われたりする.私もクイズに関する研究をやっている人や,学会でよく会う研究者と懇親したい気持ちはあったが,時間が許さず残念ながら今年は発表,質疑,コーヒーブレークでしか人と話す機会が少なく,ちょっと時間不足だったなと思う.

      研究の主題とする部分(クイズはあくまで題材であって,主題は"言語生成結果の多様さの向上である"とか)の関係や,交流機会の創出のためにわざと複数のセッションに散らしている可能性もあるので,一概にどうこう言えるわけではないことには注意しなければならない

  • 言語処理学会第30回年次大会に参加しました! - Helpfeel Developers' Blog

    • teramotodaikiさん@helpfeel

      最初に聴講したのは、早稲田大学の小林俊介さんによる「多様なクイズを自動生成する手法およびその検証」という発表でした。クイズ番組に使われるようなクイズを自動生成するために、言語モデルを学習する試みです。
      Helpfeelでも文書から質問文を生成する研究を行っているため、大変勉強になりました。1つのクイズを作るために複数の文書をミックスする発想がとくに面白いと感じました。

  • 言語処理学会第30回年次大会(NLP2024)に参加しています - Helpfeel Developers' Blog

    • nishiyamaさん@helpfeel

      E2:データ生成のセッションでは、E2-3「嘘がなく、面白いクイズの自動生成」が面白かったです。早押しクイズではしばしば回答タイミングを先延ばしにする「前フリ」がありますが、そうした分析を経たうえで「面白い」クイズをChatGPTで作問するという内容でした。

参考: JSAI2024

参考: AI王4

Discussion