言語処理学会第29回年次大会(NLP2023)の論文紹介と感想
はじめに
今回の記事では,言語処理学会第29回年次大会(NLP2023)の簡単な論文紹介と感想について書こうと思います.今回は生成や言い換え系の発表をたくさん聴講しました.
NLP2023について
2023年3月13〜17日に沖縄で開催された,多くの自然言語処理の研究が発表される大会です.翻訳,機械学習,生成,言い換え,マルチモーダル,評価,要約,対話など,自然言語処理の中でも様々な分野の研究発表を聞くことができます.
来年も同じかはわかりませんが,参考までに今年の参加費についてはこちらをご覧ください.
今回私はオンライン聴講をしていたので現地の様子はあまりわかりませんでしたが,どうやら6ブースぐらいあるらしくて,それぞれのブースごとに1人18分発表×5で1セットみたいな感じで進んでいきました.
あとなんか話を聞く限りでは企業のブースが色々あって,なんかそこでお話ししたり,グッズ貰えたりするみたいです.
発表された研究の紹介
次に発表された研究の中からいくつか紹介します.
H4-1:服飾の色情報に基づいたポエティックな商品名の作成支援システム
飯塚柚稀 (群大), 林克彦 (北大), 永野清仁 (群大), 宮尾祐介 (東大)
こちらの発表では,服の色から得た情報を用いてポエティック(詩的)な商品名の作成を支援するシステムの研究について聞くことができました.
背景
背景としては,化粧品などは比喩表現や修飾語を用いた独特で印象的なネーミングが一般的であることから,服飾商品にもそのようなポエティックな名前をつければ購買意欲が上がるのでは?ということで低コストでの命名を行いたいとのことでした.
提案システム
そこで服のメインカラーを用いて命名することが重要ではないかという仮説をたて,それを検証するために単語・カラーコード辞書を作成し,例えば茶色っぽいカラーコードの時は名付けの際に「チョコレート」という名前が採用されるという感じでした.
服飾画像からのカラーコードの抽出方法としては,画像から1点選択した部分の色を抽出する方法と,クラスタリング(k-means法)で画像の中で最も割合の大きい色を抽出する方法がありました.ただし後者では影の多い服では本来の服の色が抽出されないという問題がありました.
そして抽出された色を用い,「商品の色単語+”の”+(ランダムに選ばれた修飾語が入る)+入力テキスト」というテンプレートにより商品名が生成されるようです.修飾語が入るかどうかは任意の確率で選択されるそうです.
実験
学生99名にGoogleフォームでアンケート調査を行っており,質問の内容としては,画像の商品名として魅力的なものを全て選択するよう要求しています.
選択肢は,服の色に近い色の単語を用いたもの,遠い単語を用いたもの,関係のない単語を用いたもの,服の形状特徴のみを用いたもの.修飾語を追加したもの,実際の商品名です.
結果・分析
結果は,服飾から遠い色を持つ単語よりも,近い色を持つ単語の方が多く票数を獲得しており,服のメインカラーを商品名に盛り込むことは重要であるという仮説に一定の妥当性があることがわかったそうです.
しかし,実際の商品名と比較するとシステムが生成した商品名の票数は劣る結果になってしまい,これに関してはシラユリなどの花の名前を用いたものは多くの票数を獲得していたのに対し,酒饅頭など洋服のイメージに合わずパッと想像しにくい和菓子などの単語が用いられていたものの票数の低さが原因であると考えられています.
また服飾の特徴を説明する単語のみで構成された商品名が最も票数を獲得していましたが,これは人手評価の際に魅力的な商品名を選ぶよう指示したことによって,商品の魅力を高めるというよりは商品名として違和感のないものが選ばれてしまったためではないかと考察されていました.
質疑応答
- ポエティックなネーミングが刺さる層と刺さらない層がいるのでは?
→ ガーリーな感じの服が刺さる層には刺さる気がする
という感じの質問と回答でした.また,その回答を得て質問者は,そういうのが刺さる層に絞って人手評価を行ってもらうとどうかと提案していました.
また,
- ネタみたいな突飛な名前を出したいとかはある?
→ 「アリス苺のショートケーキ」みたいな感じのよりポエティックな名前も出せるようにしたい
という感じの質問と回答もありました.
発表を聞いて感想
まず初めに思ったのは,タイトルスライドが可愛いということでした.タイトルスライドが可愛いと聞く方も「えっスライド可愛いよし聞くぞ〜」みたいなやる気の高まりが起こるのを感じました.全スライドこんな感じなのかと思っていたら一方で中身は普通のスライドで見やすく,表紙だけ可愛くすることでやる気の高まりを得つつ研究発表の邪魔はしないみたいな感じでとても良いと思いました.
また,影が多い服では自動抽出で本来の色を得ることができないという問題に対してクラスタリングを行うのではなく,影の多い服の画像+本来取ってきて欲しい色みたいなデータセットを作って学習させたらそれも自動化できないかなと思いました.あ,今書きながら思いついたのですが,そもそも影の多い画像とそうでない画像を判別しなければならないので,影の多い画像判定機みたいなのも作れば良いと思いました.
あと,修飾語がランダムに選出されるということから,それも服飾の色情報を用いて自動選出できないかなと思いました.具体的には青っぽい色ならクールなんちゃらみたいな感じです.
H4-2:入力文章の内容に沿った新たな歌詞を生成する作詞支援システムと剽窃リスクを下げる歌詞生成手法
渡邉研斗, 後藤真孝 (産総研)
こちらの発表は,歌詞を作る際に作詞者がこんな感じの歌詞を書きたいという内容を入力すると,それに基づいて歌詞を生成してくれるシステムを作成し,作詞者に発想を与えたいという研究でした.
背景
作詞者が作りたい歌詞のイメージに基づいた文章を入力しても,それに似たような言葉の歌詞を生成したのでは作詞者は発想を得ることができないため,内容は同じでも表現や字面の違う歌詞を生成したいとのことでした.
提案システム
そこで,入力文章の内容は保持しつつ入力文章の字面に関する情報を持たない中間表現を経由させることを考え,その中間表現として画像を用いていました.
画像はアニメ風画像を生成するAnything v3を用いており,プロンプト調整が不要であるのと,アニメ風画像とスタイルを一貫することでImage-to-Lyricsモデルを学習しやすいとのことでした.
そして合計856,778の画像-歌詞ペアを生成し,訓練済みVision TransformerとTransformer Decorderを合わせたImage-to-Lyricモデルの学習をしています.
ここで大規模言語モデルの訓練済みパラメータは使用しておらず,その理由としては大規模言語モデルが使用した訓練データ中の文章(歌詞のみに限らない)の剽窃リスクを下げるためであるそうです.
また,剽窃の可能性のある歌詞を生成することを避けるために,その歌詞の登場頻度が既存の曲3つ以内であるものの単語4-gramの使用を禁止する制約をTop-Pサンプリングに課しています.
実験と評価
実験の内容としては,Web小説のあらすじとその小説がアニメ化された時の主題歌の歌詞51作品分を評価用データとして用意し,小説の概要文章を入力した時の出力について評価しています.評価指標としては,入力文章の内容を表した歌詞を生成する能力があるかの評価にはテストセットパープレキシティを,入力文章と字面が異なる歌詞を生成する能力があるかの評価には入力文章と生成された歌詞の標準化編集距離を用いていました.
実験の結果としては,文章要約もしくは逆翻訳を用いてTransformerを学習させた2つの比較手法と比較した結果,提案手法が2つの評価指標の両方において優れているということがわかりました.
また,剽窃対策手法を行わなかった場合,生成歌詞中の17.5%のフレーズが剽窃となってしまう可能性があるとのことです.
質疑応答
-
事前学習モデルを使って,そのあとフィルタリングすれば精度が上がるのでは?
→ 歌詞以外のものはフィルタリングできないため無理 -
画像がちょっと変わるだけでも結果って変わる?
→ 画像として表現できるものはうまく歌詞にできるけどそうでないものは無理(自然言語処理楽しいなとか)
発表を聞いて感想
自分も作詞作曲をしようと思ったことが何回かあって,その時にこのメロディや歌詞はは剽窃扱いにならないのかって気になったことがあったので剽窃対策が施されているシステムは作詞者にとって使いやすいものになりそうだなと感じました.
また,剽窃対策として,頻度だけではなくPMIを用いることで固有の歌詞を判別しやすくはならないのかなと考えました.
H8-5:ライトノベルからショートショートへの変換法
山田真彦, 天沼博, 松澤和光 (神大)
こちらの発表では,ライトノベルから文章を抽出してショートショートに変換する研究について聞くことができました.
背景
既存研究としてショートショートを模倣利用して新たにショートショートを自動生成するものや,ショートショートの会話文を置換するものはあるものの,ライトノベルなどの長編作品から物語を抽出して生成するシステムは存在しておらず,また,ライトノベルをそのように小さな物語として抜き出すことで,新たな創作や共同制作などに役立てたいとのことでした.
提案システム
落語の三題噺に着目し,作品を全体の1/3ずつに分けてそれぞれの文章群からショートショート構成の元となる文章を抜き出し,さらにそこから固有名詞を含む文章を全て抜き出して登場順に並べることでショートショートに変換するそうです.
構成元とする文章の条件は以下の通りでした.
- 固有名詞を含む文章
- 文末が「た」,「だ」で終わる文章
- 疑問や問いかけの内容の文章
また文章を選択する方法として,3つに分けた文章を「前・中・後」としたとき,世界観などの説明のある「前」は文章の登場順に,そして,中盤につれ情報量が多くなる「中」と「後」に関しては文末から探していくことに加え,これらの文章群では他の文章群のものとは違う固有名詞を含む文章を選択するそうです.
実験と評価
無作為に選んだライトノベル10作品から,坊ちゃん文学賞のショートショートの募集条件である4000字を目標として変換を行ったそうです.その結果,7作品が目標字数以内に収まったそうです.しかし出力結果の内容を読むとほとんどの内容に整合性がなく,指示詞の内容の変化及び不在や,内容の急な転落,会話文の発言者の変化,同じ発言者の会話文の連続などが目立ったそうです.
質疑応答
- どういう嬉しさがある?内容が簡単に理解できるとか,多様性が増えるとか
→ 両方ある
発表を聞いて感想
指示詞の整合性が取れないという問題がありましたが,これって文書を突っ込むとその中にある指示詞全部元に戻してくれるシステムとか作れないのかなってちょっと思いました.
また,この研究はライトノベルからショートショートに変換する研究でしたが,さらにそれを平易化して子供向けや外国人向けのものにできたらもっと面白いのかなと思いました.
全体を通しての感想
最後に,発表全体を通しての感想について箇条書きで一気に述べていきたいと思います.
スライド関係
- スライドは図がいっぱいあった方が見やすいし,なんなら図だけで示してくれても良いくらいには文字よりも図の方がわかりやすかったです.
- 小さい字で1文がスライドの横半分以上文字があると聞きながら読むにはちょっと厳しかったです.
- 字は大きければ大きいほどパッと理解しやすいし,字が大きいことによって全体の文字の量が減ってスッキリするのでいいなと思いました.
- 緑色っぽいスライドって目に優しくて見やすいなと思いました.
- まとめの部分で,目次とそれに対応する内容の要約とか結論みたいな感じで示されているスライドがあって,とてもわかりやすいなと感じました.
- 図を入れたスライドを作る際に右下のスライド番号が邪魔だなと思ったことがあるので,番号が上に書かれているスライドを見てそれいいなって思いました.
- 言葉で説明しづらいけどなんかこうスッキリした可愛い感じのアイコンとか図みたいなのがスライドに載っていると見ている側はテンションが上がるので,あぁいうの入れれたらいいなと思いました.
- 黒背景のスライドはちょっと見づらいか?と感じました.
発表関係
- ハキハキ喋ってもらった方が聞く気になれると同時に,ボソボソ喋られるとなんと言いますかなんだろうこの人の研究大丈夫なのかなって若干感じてしまいました.
- これは自分もやってしまうので直したいと思っているのですが,発表途中に「えっ」とか言うと聞いてる側には結構目立って聞こえるんだなと感じました.
- 身振り手振りを使って話していると,発表してる感があって聞いている方も注目しやすいなと思いました.
- おそらくパソコンのスライドもしくは原稿を見ながら発表してるのかなと思うのですが,そこで会場の方を見ながら発表してる人臨場感あっていいなって思いました.
- あまり早口だと何を言っているのか理解できないので,ちょっと喋るたびに一呼吸おくぐらいの感じで喋ってもらった方が理解しやすいなと感じました.
- たまにポインタを動かすのではなく,今発表で読んでいる部分を逐一ポインタで追いながら発表してもらえるととてもついていきやすかったです.
- 発表の時一定のトーンで喋るよりも,抑揚をつけて発表してもらった方がスッと頭に入ってくるなーと感じました.
- 大きな声で発表してもらわないと聞きづらいなと思うこともありました.
- なんでこの研究をやっているのか,何を解決するためにやっているのかという目的の部分がしっかり伝わっていると発表の内容が入ってきやすいなと感じました.
質疑応答関係
- 質疑応答は自信満々に答えた方が好印象な気がしました.
- 質問をもらったら「ありがとうございます」って言うとなんかそれっぽくて好印象でした
- 質問が1回で理解できなかった時は,噛み砕いてもらってもいいですかって聞いたらちゃんと噛み砕いて答えてくれるんだなーと思いました.
- 学内での発表しか経験していなかったので気づかなかったのですが,質問するときは所属と名前を最初に名乗ると言うことを学びました.
- こういう考察は行っているんですか?と言う質問が飛んでくることがあるので,対応できるようにあらかじめ考察し切っておかなければならないということを学びました.
- 文の難易度の例とか出力例とか聞かれることがあるので,発表スライドに盛り込めない場合は質疑用のスライドを用意してそこにまとめておくと良いなと思いました.
- それChatGPTにやらせてみるとどうなるん?みたいな質問が飛んでくることがあることを学びました.
- ゼロショットの評価が気になると言われることがあるんだなと学びました.
- なんで司会者の人ってあんなに質問が出てくるのか不思議で,時間余ったら絶対質問してたし,しかも時間ないから短い質問しますとかバリエーションに富みすぎてすごいなと思いました.
その他
- 結構みんな時間前に発表し終わったり時間超過したりしてるなーという印象でしたが,そこでビシッと時間ぴったりに終わらせている人はかっこいいなと思いました.
- 聞いてる際に,元々の知識がないと理解が追いつかないことがあったので,色々知っておくことって大事だなと思いました.
- 人手評価をしてもらう時に,評価者に評価をするときの正しい気持ち?と言いますか,評価したい部分の本質?と言いましょうかを伝えるのは難しく,評価したい部分とはずれて評価されてしまうことを防ぐために,意味の履き違えが起こらないような質問文を考えたり,しっかり説明したりすることは重要なんだなと感じました.
- 人手評価を行う対象も,行っている研究と合致する人を選ぶことが重要なんだなと思いました.
- 発表を聞きながら知らないことも多かったですが,その分自分が何について知らないのかとか,聞いたことあるけどよくよく考えるとふわっとしかわかってなかったみたいな知識にも気づけてとても学びになりました.
- そのテーマについて実際に何か作ったりとか関わったりしたことがないと,どう言う部分が改善されるとどのくらい嬉しいという感覚がはっきりわからないんだなと言うことがわかりました.
- GPT-2使ってる人いっぱいいるなーという印象でした.
- 実際の問題に適用できる研究というよりは,その前段階としてある条件下ではこうでした,次はこうしてみたいですっていう感じの研究が多かったので,それだけすぐ実用できる研究をするのって大変なんだなって思いました.
- 評価の研究で,参照例を使わない系の研究が多い印象だったので,みんな求めてるから多いのかなと思いました.
- テキストのみの品質ではなく,その文章の内容とかカテゴリの人気順とかでバイアスがかかってしまうことがあるので,純粋なテキストの評価ができているか考えることは大事なんだなと感じました.
- デモを見せるのってウケがいいんだなと学びました.
- 自分に関係のないことはなく,全部自分ごととして何かに活かせないかなーと思いながら聴くことが大事であるということを学びました.
おわりに
今回の年次大会の聴講を通して,スライドがどうやったらみやすいのか,発表はどうすれば聞きやすいのか,質疑はどんな感じか,また自分のわかっていない部分がどこかとか,こういうことに使えたらいいなって考えたりすることをたくさんしたので,多くの学びを得ることができたと思います.
今回学んだことは今後自分が研究を行う際や,どこかで発表を行う場合に活かして,より良い研究・発表にしていきたいと思います.
2023/03/22
Discussion