📖

NLP2024（言語処理学会第30回年次大会）参加レポート: 医療NLPとLLMまわりの発表の感想

2024/04/24に公開

NLP

会期直前に新型コロナウィルスに感染してしまい泣く泣くオンライン参加になった言語処理学会第30回年次大会(NLP2024)。興味を引かれた発表のメモと感想です。

https://www.anlp.jp/nlp2024/

医療NLP関連

日本語における医療用語の難易度辞書の半自動構築

○杉原壮一郎, 梶原智之, 二宮崇 (愛媛大), 若宮翔子, 荒牧英治 (NAIST)

非医療者には難解な専門用語を平易に言い換える医療テキスト平易化のための言語資源を整備。医療用語の難易度データセットを公開した。日本語の医療用語1万語の難易度をアノテーションした過程で特定の年代以上でないと意味がわからない用語がある事もわかった。大腿骨骨折、痴呆症、脳死状態、近視は50代以上のグループでないと意味がわからない。辞書はGitHubの EhimeNLP/J-MeDic-Complexity で公開。

所感：患者向け医療情報メディアの運営者にとっては嬉しい資源。ターゲット読者に用語の意味が通じるかどうかのバリデーションに使えそうで非常に有り難い。年代属性によって医学用語の意味がわかったりわからなかったりするのは面白い知見。「脳死でやる」とか「近視眼的」といった本来の意味と異なる用法で見かける単語は意味が通じなくなっていくのかも。

生成モデルは医療テキストの固有表現抽出に使えるか？

○西山智弘 (NAIST), 柴田大作, 宇野裕, 辻川剛範, 北出祐, 久保雅洋 (NEC), 矢田竣太郎, 若宮翔子, 荒牧英治 (NAIST)

識別モデルであるBERTと生成モデルであるELYZA,GPT-4の固有表現抽出性能を比較。zero-shot, few-shot設定では生成モデルの方が性能が良く、shot数を増やしていくと識別モデルの性能がスコアが高くなるという結果。訓練データが十分になるならBERT系を使えばよい。

所感:自分も取り組んでいる内容なので参考になった。他の文献でのGPT-NERのスコアよりも実験結果のGPT-4のF1スコアが低いのは英語と日本語テキストの差による物だろうか。

大規模言語モデルを用いた病名予測の検討

○宇都宮和希, 坂野遼平 (工学院大)

症状の患者表現からICD-10の症状や臨床所見へのマッピング。Entity Linkingの様なタスクを評価。GPT-3とGPT-3.5、ファインチューニングの有無で比較。

所感: Medical Entity Linkingでも日本語テキストを対象にした実験は少ないので貴重な報告。ファインチューニングしたGPT-3.5で平均コサイン類似度0.91と想像以上に高くて、お手軽Entity Linkerとして使えるのかもしれない。既存研究だとEntity LinkingはBERT系のモデルの方が強いのでどれぐらいの差になるのだろうか。

診療テキストからの必要な検査項目の予測

○榎原芽美 (東大), 柴田大作, 辻川剛範, 宇野裕, 北出祐 (NEC), 河添悦昌, 大江和彦 (東大), 久保雅洋 (NEC)

診療テキストの {患者基本情報、主訴、家族歴・生活歴、現病歴} を入力とし、実施する検査を選択肢から複数選ばせるというもの。比較モデルは東北大BERT, JMedRoBERTa, ELYZA, GPT-4

プロンプト

あなたは誠実で優秀な日本人医師です。本文の患者に必要な検査項目の組み合わせを、検査のリスト:
['X線単純撮影', 'X線透視・造影', 'X線血管撮影’, 'X線CT検査', 'MRI検査', '核医学検査', '超音波検査', '一般検査’, '血液学的検査’,'生化学的検査', '内分泌学的検査', '免疫学的検査’, '微生物学的検査', '病理学的検査', '脳波・脳磁図検査', '心電図検査’] の中から選択し、リスト形式で回答してください。
本文:{input}
検査項目:

ファインチューニングした東北大BERTおよびJMedRoBERTa, few-shot GPT-4はF1スコアでは人間の医療者のスコアを越えた。Recallでみると人間の医療者のスコアが高いという結果。

所感: 自動診断っぽい研究で好き。検査は全ての検査を同時に実施するよりも「感度の高い検査でスクリーニングを行ない、特異度の高い検査で確定診断を出す」といったシーケンシャルな意思決定になりそうだけど、1度に全てを予測するという難しそうな設定で人間を越えているのが興味深い。

LLM関連

大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約

○銭本友樹, 長谷川遼, 宇津呂武仁 (筑波大)

ChatGPTを用いて生成した疑似データを利用して自由記述アンケートのカテゴリ分類を行ない統計分析を行なう手法を提案。グラウンデッド・セオリー・アプローチに基づいて自由記述アンケートからカテゴリを抽出。ChatGPTは疑似データの生成のみに利用するため、生のアンケート結果そのものは閉じた環境に置いたまま実施可能。

所感: 自由記述アンケート処理の手法は知らなかったので勉強になった。アンケート結果そのものは外に出さなくて済むのでインターネットから隔離された病院内のデータを処理するときにも適用できそう。

LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析

○関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード)

2つのLLMの生成した文章について「複数の人間による評価の分析」と「人間の評価とGPT-4による自動評価結果の比較分析」。質問に対する回答について関連性・回答内容の正確性・流暢性・情報量を評価。GPT-4による自動評価で人間と評価の食い違いが生じる原因として情報が不正確である事がGPT-4には判断できず高い評価をしてしまう事がわかった。

所感: GPT-4にLLMの生成させた文章を評価させた結果の分析が面白い。関連性・流暢性・情報量の評価はLLMが得意と考えてよさそう。他の研究においても「LLMの回答が質問に対する回答に関連するか再度LLMに推敲させる」といった手法が有効とされるのとも合致する。逆にファクトチェックは今後も大きな課題として残りそうだなと。

長文生成の多面的評価:人手評価と自動評価の向上を目指して

○鴨田豪 (東北大), 浅井明里 (ワシントン大), Ana Brassard (理研/東北大), 坂口慶祐 (東北大/理研)

情報検索クエリに対する長文応答の評価手法の提案。ROUGEなどの機械的な評価手法による評価と人手による総合評価との相関係数で判断。相関が高いほど人の評価に近い。結果、ROUGEやPPLと比較してLLMによる3軸評価の結果を入力とする線形モデルの相関が0.72と高くなった。

所感: Long-form QA (LFQA)の評価方法の歴史から説明がありわかりやすい発表だった。用途によって望ましい回答の要件は変わるのでどの軸を重点に置くかチューニングの余地がある手法は使いやすそうだと思った。

雑感

この分野に足を踏み入れたばかりでROUGEもPerplexityもよく知らない状態だったが分からない用語を都度調べるだけでも勉強になった。今回は業務に近い医療NLPとLLMに関連するセッションを主に聴講したが、医療NLPは思った以上にマイナーな分野っぽい。来年は自分も発表して人を増やしたい。