🧙

キャラクタ研究動向2 日本の論文を調べてみたら実は意外と頑張っている アニメキャラと話したい情熱は日本だけ?

に公開

はじめに

大規模言語モデルが発明され
ファインチューニングやRAGの技術も進み、物語のキャラクターとの会話を楽しみたいというニーズにもこたえられるようになりました。
実際様々なチャットアプリやサービスがありますが、今回は研究としてどのようなものがあるのか調べてみたので、ブログとしてまとめます。

前回は英語論文を取り上げました。
https://zenn.dev/headwaters/articles/e32c4369f9cb87
人工知能学会などキャラクターについての研究は昔からあります。
今回はその中から最近のLLMに関連したキャラクタ研究論文や学会発表を紹介します。

参考文献:角括弧は今回識別のため付けたラベルです。

略語:

  • LLM=Large Language Model: 大規模言語モデル
  • FT=Fine-tuning: ファインチューニング学習

全体

論文の特徴を一覧表にしました。
論文が多いので3つのカテゴリに分類しました。

  • ゲームにおけるAIの応用
  • LLMの評価とデータセット構築
  • 対話型AIキャラクターの性格と行動の制御
分類項目 論文 方法 評価方法 特徴
ゲームにおけるAIの応用 共同生活シミュレーション GPT-4o をNPC、Game Master、Automated Designerとして利用、 DALL·E3 で背景画像生成 ユーザーの嗜好を反映した対話、生活ルーチンに沿ったシーン生成の評価 ユーザーのプレイに応じて 動的にシーンが変化する ゲームシステム、 共同生活体験 の演出
ゲームにおけるAIの応用 シンボリックAIとLLM融合 ゴールベース型AI 、 LLM (gpt-3.5-turbo)による行動評価、線形回帰モデル LLM による行動評価を基にしたモデルの評価、 MA-POCA との対戦 シンボリックAI と LLM の融合、ゲーム開発者が作成するようなAIを自動作成
LLMの評価とデータセット構築 キャラクタ設定自動抽出と評価 gpt-4-1106-preview を利用してキャラクター設定抽出、LLMによる自動評価 人手評価による抽出されたキャラクター設定の適合率、LLMによる自動評価の適合率 キャラクターの過去の発言から キャラクター設定を自動抽出 、 チャットボットのロールプレイを自動評価
LLMの評価とデータセット構築 メタデータ付き対訳データセット gpt-3.5-turbo によるメタデータ生成、 LASER で埋め込み 人手評価による翻訳結果の比較 映像翻訳における キャラクターの性格や人間関係 などのメタデータの役割を検証、 発話者名付き対訳データ の構築
LLMの評価とデータセット構築 BERT+LLMキャラクタ性評価 大規模言語モデル(LLM) による対話文脈生成、 BERT による文章分類 人手評価によるアノテーション一致率(88.4%)、対話データに基づいたキャラクタ性評価 対話文脈とペルソナ を考慮した応答のキャラクタ性評価、 口調以外の応答内容 に関するキャラクタ性評価
対話型AIキャラクターの性格と行動の制御 RAG対話システム Retrieval Augmented Generation (RAG) 、 LLM によるベクトル検索、 BM25 質問と外部知識チャンクの関連度、 NDCG@3, NDCG@10 IP固有情報 を検索・順位付け、 ハルシネーション の軽減
対話型AIキャラクターの性格と行動の制御 LLM-FTとFew-shot GPT-4 , rinna/youri-7b-chat をベースに Supervised Fine Tuning (SFT) , Reinforcement Learning from Human Feedback (RLHF) , Few-shot Prompting SFT と RLHF で学習したモデルの出力結果の比較、 Few-shot Prompt の有効性 ファインチューニング と Few-shotプロンプト がLLMのキャラクター設定適用に与える影響を検証。学習データと矛盾する内容に対する応答を検証
対話型AIキャラクターの性格と行動の制御 RLHFキャラクタ文章生成 OpenCALM (3B)をベースに RLHF 、 LoRA BERT 分類器によるランク付けの自動化、 人手評価 RLHF を用いて、キャラクターの性格に合わせた文章を生成、 キャラクターらしさ の向上
対話型AIキャラクターの性格と行動の制御 性格変化検出AI 大規模言語モデル (ChatGPT) のファインチューニング、 BigFive性格診断 BigFive性格診断テスト の回答結果を定量的に比較 AIキャラクターの更新ごとの性格変化を定量的に検出
対話型AIキャラクターの性格と行動の制御 感情モデルと意志決定モデル GPT-4 による感情評価、 MLP による意志決定写像の学習 プルチックの感情の輪 に基づいた感情ベクトルの評価、 人手評価 感情モデル と 意志決定モデル を提案、キャラクターの感情と行動の関連付け

解説

1. ゲームにおけるAIの応用に関する研究

  • 概要 :
    • これらの論文は、ゲーム開発におけるAIの応用、特に NPC(ノンプレイヤーキャラクター)の行動制御 や、 ゲーム世界の動的な生成 に焦点を当てています。
    • 生成AI を用いて、キャラクター、シナリオ、マップデザインなどのゲーム要素を自動生成する研究が行われています。
    • ユーザーの嗜好を反映した対話システム や、 共同生活シミュレーション の開発も試みられています。
    • ゴールベースAI や ビヘイビアツリー といったシンボリックAIの手法と、LLMを組み合わせることで、より複雑で自律的な行動を可能にするアプローチが提案されています。
    • ゲーム内のキャラクターの 感情 と 行動 を関連付けるモデルも研究されています。
  • 論文例 :
    • [共同生活シミュレーション]
    • [シンボリックAIとLLM融合]

[共同生活シミュレーション]のキャラクターとの共同生活シミュレーションシステムの研究では
「ドキドキAI尋問ゲーム」なんていうセクションでゲームの紹介していて、
学術の分野でこんなセクションがあっていいのかと、ちょっとドキドキしました。
内容としてはLLMをつかってキャラクタのセリフを作るだけではなく、
場面遷移もLLMを使って判定している点が興味深いです。

[シンボリックAIとLLM融合]のシンボリックAIではゲームの中でのグラフ化された行動探索手法の要素をLLMを使って学習データを生成して学習(パラメータ推定)するという点が新しいです。
対戦ゲームを対象としていてゲームでの性格の異なるエージェントを作り出しています。
というか私が共著で入っています。

2. LLMの評価とデータセット構築に関する研究

  • 概要 :
    • これらの論文は、LLMの性能を評価するための手法や、 特定のタスク (特にキャラクターのロールプレイや翻訳)に必要なデータセットの構築に焦点を当てています。
    • キャラクターの性格特性 を定量的に評価する手法や、 ハルシネーション (事実に基づかない応答)を検出する手法が提案されています。
    • 対話文脈 や ペルソナ 情報を考慮した応答のキャラクタ性を評価するモデルも開発されています。
    • 翻訳タスク においては、キャラクターの性格や人間関係といったメタ情報を考慮した翻訳の必要性が指摘されています。
    • 自動評価 のための手法も研究されており、これにより、キャラクター設定の再現性や翻訳の品質をより効率的に評価することが目指されています。
  • 論文例 :
    • 「Retrieval Augmented Generationを用いたキャラクター対話システムにおけるIP固有情報検索の取り組み」
    • [LLM-FTとFew-shot]
    • 「対話文脈とペルソナ情報を考慮した応答内容評価モデル」
    • 「LLMを用いたペルソナ指定型キャラクターの感情解析」
    • [キャラクタ設定自動抽出と評価]
    • [メタデータ付き対訳データセット]

[メタデータ付き対訳データセット]では
Opensubtitlesなどのサイトから映画作品の異なる言語の脚本の対応データを構築することを目的としている。そのため、脚本におけるキャラクター設定などのメタデータを抽出することと
脚本間の対応関係を決定する事を目標としている。
メタデータとして、発話者の性格情報をLLMを使って抽出しており、抽出された性格情報は、美点(Postive Traits)、欠点(Negative Traits)、性格タイプ(Personality Type)と人間関係情報からなる。
アライメント(alignment)スコア[Thompson et al. 2019]で日英語の対応関係を構築している。

  • [Thompson et al. 2019] Thompson, B., et al.: Vecalign: Improved Sentence Alignment in Linear Time and Space, in Inui, K., et al. eds., EMNLP:2019:1 (2019) https://aclanthology.org/D19-1136/

[LLM-FTとFew-shot] では
キャラクタの制御にFTとRLHF,Few Shotの比較を行っています。
FTとRLHFにDeepSpeed Chat という学習の効率化を行うフレームワークを使用しています。
食べ物の好みの2パターン(和食好きと洋食好き)と場所の好み(インドアとアウトドア)とのキャラ設定で評価し、
FTやRLHFとFewShotで矛盾する内容を与えた場合はFewShotの影響を受けるという結論でした。

[キャラクタ設定自動抽出と評価]:
この論文はCharacter-LLMの論文[Shao et al. 2023]を元にしており、
同様に様々なトピックの質問をGPTで生成している。
またChatHaruhiの論文[Li et al.2023]の方法と同様に、
キャラクタの評価もLLMで行っている。実際の人手の評価と高い適合率であることを示している。

  • [Shao et al. 2023] Shao, Y., Li, L., Dai, J., and Qiu, X.: Character-LLM: A Trainable Agent for Role-Playing, in Bouamor, H., Pino, J., and Bali, K.
    eds., Proceedings of the 2023 Conference on Empirical Methods in Natural
    Language Processing, pp. 13153–13187, Singapore (2023), Association
    for Computational Linguistics
  • [Li et al. 2023] Li, C., Leng, Z., Yan, C., Shen, J., Wang, H., MI, W., Fei, Y., Feng, X., Yan, S., Wang, H., Zhan, L., Jia, Y., Wu, P., and Sun, H.:
    ChatHaruhi: Reviving Anime Character in Reality via Large Language
    Model (2023)

3. 対話型AIキャラクターの性格と行動の制御に関する研究

概要 :

このカテゴリの論文は、対話型AIキャラクターの性格、行動、および対話の品質を向上させるための様々な手法を提案しています。
特に、 大規模言語モデル(LLM) を活用し、キャラクターの個性を維持しつつ、ユーザーとのインタラクションを豊かにすることを目指しています。
性格診断 に基づくキャラクターの行動制御や、 感情モデル 、 意志決定モデル の導入が検討されています。

技術的には RAG(Retrieval Augmented Generation) を用いて、キャラクターの背景知識や関連情報を参照し、より自然で一貫性のある対話生成を試みています。
ファインチューニング や Few-shotプロンプト を用いたキャラクター設定の適用も研究されています。
RLHF(Reinforcement Learning from Human Feedback) を用いて、キャラクターの性格に合致した文章生成を試みている研究もあります。

  • 論文例 :
    • 「対話型 AI キャラクターの性格変化の定量化と意図しない性格変化の検出」
    • 「Retrieval Augmented Generationを用いたキャラクター対話システムにおけるIP固有情報検索の取り組み」
    • [LLM-FTとFew-shot]
    • 「LLMを用いたペルソナ指定型キャラクターの感情解析」
    • 「深層強化学習とシンボリックAIを融合したゲームAIの行動制御手法」
    • 「強化学習における報酬モデルの自動化」
    • [BERT+LLMキャラクタ性評価]

[BERT+LLMキャラクタ性評価]:
データは「ときめきメモリアル3 ~約束のあの場所で~」を使用して、
キャラクタのFTを行っています。
ここで使用しているRLHFはReinforcement Learning from Human Feedbackの略で、
人のフィードバックを元に強化学習を行うというものです。
しかし、タイトルにRLHFと書いてはありますが、実際はBERTでキャラクタを判定し、その結果を使ってFTしています。なので、Human feedbackではなくBert-Feedbackが正しい気がします。
もしくはBERTからのLLM蒸留?

  • step1でキャラクタのセリフでLLMをFTします。
  • step2でRewardモデルとしてのBERTを学習します
  • step3でstep2で作ったRewardモデルを使ってstep1のLLMの強化学習します

まとめ

これらの研究は、 対話型AIキャラクターの高度化 に向けて、様々な側面からアプローチしています。特に、 LLMの活用 、 キャラクターの性格や行動の制御 、そして 高品質なデータセットの構築 が重要なテーマとなっています。これらの研究成果は、ゲーム、エンターテイメント、教育など、多岐にわたる分野での応用が期待されます。

ヘッドウォータース

Discussion