第20回言語処理若手シンポジウム(YANS2025)参加報告
こんにちは、松尾研究所シニアデータサイエンティストの大西です。
2025年9月15-17日に実施された第20回言語処理若手シンポジウム(YANS2025)に松尾研究所からデータサイエンティスト2名と人事1名が参加しました。
今回、記念すべき20回目の開催であり全5セッションですべてポスター発表、発表が257件(学生202件、社会人55件)、参加者は570人(学生286人、社会人284人)でした。今年は 「研究と実装をつなぐ自然言語処理」 をキーワードとして,自然言語処理分野の研究から実社会への実装をつなぐことをテーマに実施されました。
私自身、YANSへの参加は初めてでしたが、学生を中心に活発な議論がなされており今後が楽しみな研究が沢山見られました。
今回、松尾研究所はゴールドスポンサーとして参加しており、この記事ではデータサイエンティスト2名が注目した発表についてまとめます。
ブースの様子
立ち寄っていただいた方、アンケート回答&うどん受け取ってくれた方ありがとうございました!
松尾研究所データサイエンティストが注目した発表
参加したデータサイエンティスト2名が本学会で特に興味深かった発表4件、スポンサー賞に選ばせていただいた発表1件の全5件について以下にまとめました。各発表につきまして、著者の皆様に許諾を得た上で掲載しております。
-
[S5-P24]目標指向対話における話題誘導を感じさせない発話選択
- 著者:吉田 快 (NAIST/理研), 吉野 幸一郎 (Science Tokyo/NAIST/理研)
- 概要:本研究は、目標指向対話における「誘導感のない発話選択」をテーマとしています。例えば、商品推薦や情報取得といったシステム側に事前に決められた目標がある対話タスクでは、ユーザに「誘導されている」と気づかれない自然な対話の進行が重要です。著者らは、対話文脈に対する発話の「唐突さ」をPerplexity[1]を用いて定量化する指標 SBIS-TGCを提案しました。Perplexityが高い発話は文脈に合わず唐突=誘導的になりやすく、目標発話に対するPerplexityが低い場合は「システムの意図が予測されやすい」とみなします。この2つを組み合わせて「SBIS-TGC = 目標発話に対するPerplexity − 候補発話に対するPerplexity」として定義しています。102名の参加者とシステムとの10ターンの対話実験において、5種の候補発話からSBIS-TGCが最も低いものを選択する提案手法と雑談のみ・ランダム選択との比較を行いました。実験の結果、提案手法は「唐突感の低減」には成功した一方、目標達成率の低下や到達ターン数の増加といった課題も確認されました。
- 感想:提案されている評価指標 SBIS-TGCはシンプルな数式で非常に分かりやすいと感じました。営業やカスタマーサポートなど、顧客に不快感を与えずに目標を達成したい実際の対話システムへの応用可能性も高いと感じました。
-
[S3-P33]パラメトリックRAGによる未知知識の注入効果の検証
- 著者:北島 祥平 (JAIST), 井之上 直也 (JAIST)
- 概要:本研究は、外部文書をパラメータとしてLLMに組み込むパラメトリックRAG(PRAG)[2]の知識注入が、実際のQAで活用されるか検証することを目的としています。実験では Qwen2.5-1.5B-instruct と RetrievalQA[3]由来の50問(通常のRAGでは回答できないロングテール知識)を用い、RAGChecker等で評価した結果、PRAGは外部文書に不忠実で正答活用ができず、通常のRAGよりハルシネーションが高く、注入知識で回答できませんでした。今後は文書のパラメータ化手法の改善が課題とされています。
- 感想:この研究は、「知識を本当に注入できているのか?」 というRAG研究における根源的な問いに正面から取り組んでいる点がとても意義深いと感じました。また、「どのように知識を構造化し、パラメータ化するか」という課題は、今後のLLMの入力長が長くなるにつれて課題になる部分だと思うので、今後の研究が楽しみです。
-
[S1-P13]多目的問題でのGRPOにおける報酬ハッキングの緩和について
- 著者:市原 有生希 (NAIST), 陣内 佑 (サイバーエージェント), 森村 哲郎 (サイバーエージェント), 坂本 充生 (サイバーエージェント), 三橋 亮太 (サイバーエージェント), 内部 英治 (ATR)
- 概要:本研究は、GRPO(Group Relative Policy Optimization)が複数の報酬関数を同時に扱う場面で発生する「報酬ハッキング」(一部の報酬だけを過剰に最適化し、他の目的を犠牲にする問題)を解決することを目的としています。提案手法MO-GRPO(Multi-Objective GRPO)は、各報酬関数を個別に正規化してから総和を取ることで、報酬スケールの手動調整を不要としつつ、全ての報酬関数が均等に学習に寄与するよう設計されています。AlpacaFarmでの実験では、GRPOがRM-Mistralを優先して文字数を大幅に劣化させたのに対し、MO-GRPOは両方の報酬関数をほぼ完全に保持。機械翻訳タスクでも、MO-GRPOは訓練目標の過学習を回避しつつ、訓練中に最適化されないGPT-Evalも向上させることに成功しました。今後は、より複雑な多目的問題への適用が期待されます。
- 感想:普段GRPOの報酬設計の難しさと戦っている人間としては非常に興味深い発表でした。本発表についてはまとまったものが既にarXivに上がっています[4]。GRPOを実際に行う際には複数の指標を同時に最適化していく場面に多く出会います。そのたびにうまくいかない場合には細かな修正を施していましたが、GRPOの実装そのものの問題点を本発表は指摘していて、それに対しシンプルな修正で改善しています。理論的な裏付けと実験による検証がしっかりしており、研究として素晴らしい上に、実務上も非常に勉強になった発表でした。
-
[S1-P10] 多言語継続事前学習において学習順序は転移性能と内部表現に影響するのか?
- 著者:山口 真 (静大), 片岩 拓也 (静大), 狩野 芳伸 (静大)
- 概要:本研究は、多言語言語モデルの継続事前学習において、学習順序が転移効果と内部表現にどのような影響を与えるかを調査しています。初期化したGPT-2に対して日本語→英語、英語→日本語の順で各1億トークンを10エポック学習させ、BLiMP/JBLiMPによる文法容認性判断タスクで評価しました。結果として、Quantifiers、Bindingなどの意味論的現象では言語的汎化が見られたものの、形態論や統語論では一貫した転移効果は確認できませんでした。また、logit lensによる内部表現の分析により、日本語→英語学習においては第一言語(L1)は前半層で、第二言語(L2)は後半層で支配的であることが明らかになり、これは多言語ハルシネーションに関する先行研究と整合的でした。今後は対象言語の増加や、表象欠陥仮説の検証が課題とされています。
- 感想:実際に日本語LLMを作る際には、フルスクラッチで構築する場合と既に英語で学習されたモデルに対して継続事前学習を行う場合とがありますが、その際によりLLMの日本語性能を上げるために日本語コーパスと英語コーパスのどちらを先に学習させるかはよく議論となるかと思います。本発表ではGPT-2に順序を変えて学習した際に前半層と後半層で支配的な言語が異なったり、言語的汎化が意味論以外(形態論や統語論)には起こらなかったことであったりなど有意義な示唆を示してくれています。今後の日本語LLM開発に影響を与えそうな研究になりそうで今後も注目したいです。
松尾研究所スポンサー賞
-
[S5-P32]自己教師あり音声モデルの韻律表現獲得における層別分析
- 著者:谷端 真瑠 (NAIST), 高橋 舜 (NAIST), 大内 啓樹 (NAIST), Sakriani Sakti (NAIST)
- 概要:この研究は、乳児が少ない発話データから効率的に音声認識能力を獲得する仕組みに着目し、自己教師あり音声モデル(HuBERT)の層別分析を通じて韻律情報[5]の学習過程を調べたものです。分析の結果、韻律情報はモデル全層で獲得されるが、学習が進むにつれ語彙的な情報へと遷移する傾向が見られ、人間の言語習得過程との類似性が示されました。小規模データでは過学習の兆候も確認されましたが、今後、データを増やすことで人間らしい音声モデル設計への応用が期待されます。
- 感想:音声認識におけるデータ不足という工学的な課題と、人の言語獲得のモデリングするという認知科学的な課題の両方を解決する、とても興味深いテーマでした。話者間のバイアスを除いてから層別解析をする、という音声ならではの要素も興味深かったです。ポスターや実際の説明もわかりやすく、スポンサー賞として選定させていただきました。
景品は、研究活動に勤しむ学生の味方である まごころセット(お好きな技術書+めぐリズム+エナドリ) です。会場とSlackがざわついてくれて少し安心したので、次回以降もまごころを届けられればと思っています。
授賞式の様子 おめでとうございます!
まとめ
ポスターセッションやスポンサーブース、ラウンドテーブル、ナイトセッション、松尾研合同懇親会等で懇親させていただいた皆様、誠にありがとうございました!また、スポンサーツアーやスタンプラリーを通じて企業のことを知ってもらえるきっかけを作っていただいた運営・委員の皆様に感謝申し上げます。
弊社では、業種・ドメインを絞らずLLMの追加学習・RAG活用、LLMシステム開発など約30件の共同開発プロジェクトを実施しています。今回の学会を通して、LLMの学習手法や内部挙動の観察・対話システム・音声・安全性に関する研究など、「研究と実装をつなぐ自然言語処理」 のテーマに相応しく実適用の可能性が見える興味深い研究に触れることができました。
今年は聴講で参加したものの、来年のNLPやYANSではポスター発表や口頭発表を通じて皆さんに共同開発成果をお届けできればと考えております。
-
Perplexity: 言語モデル(LM)が 「次に来る単語や文をどれくらい予測しやすいか」 を示す指標。本来はモデルの性能評価に用いられ、Perplexityが低いほど「テスト文をうまく予測できる=良いモデル」とされる。 ↩︎
-
Parametric Retrieval Augmented Generation: 従来のRAGでは、検索結果を入力コンテキストに追加するが、PRAGでは検索文書をLoRAモジュールとして事前学習し、推論時にモデルのパラメータ空間へ一時的に注入して利用する https://arxiv.org/pdf/2501.15915 ↩︎
-
RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering https://arxiv.org/pdf/2402.16457 ↩︎
-
MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems https://arxiv.org/pdf/2509.22047 ↩︎
-
韻律情報: 声の高さ(基本周波数f0)、音の強さ(各フレームの二乗平均平方根)、音の明るさ(スペクトル重心)、振動の割合(ZCRなど)といった、言葉そのものの意味ではなく「声の調子やリズム」に関する特徴を表す。 ↩︎
Discussion