キャラクタ研究動向1:最近の研究動向で未来を覗く いつのまにか推しキャラと会話できる時代が来ていた!?
はじめに
大規模言語モデルが発明されたことによって、「機械」と会話ができるようになりました。
ファインチューニングやRAGの技術も進み、物語のキャラクターになりきって会話を楽しみたいというニーズにもこたえられるようになりました。
実際様々なチャットアプリやサービスはありますが、今回は学術研究として技術的にどのようなものがあるのか調べてみたので、ブログとしてまとめておきます。
今回取り上げる論文はarxivにある論文中心で読んでいきます。通常学会論文は執筆・投稿してから査読を経て発表までに1年くらいかかります。しかし、次々と新しいAIのサービスがリリースされることもあり、人工知能の分野はスピードが速く、論文公開された時には「過去の情報」になってしまうことも多いです。そのため、研究論文はarxivに載っているものを読んでいきます。Arxivには査読中のものや修正中のもの、出版待ちのものも含まれています。なので、信ぴょう性については論文化された後にご確認ください。
実はアニメやゲームのキャラクター研究は多く、LLMの前からありますが、今回は海外の論文でLLMを使用したものを抽出しました。
今日取り上げる論文は下の5つです。
- ChatHaruhi : LI, Cheng, et al. Chatharuhi: Reviving anime character in reality via large language model. arXiv preprint arXiv:2308.09597, 2023. https://arxiv.org/abs/2308.09597 https://github.com/LC1332/Chat-Haruhi-Suzumiya
- Character-LLM : SHAO, Yunfan, et al. Character-llm: A trainable agent for role-playing. arXiv preprint arXiv:2310.10158, 2023. https://arxiv.org/abs/2310.10158
- Character-100 : WANG, Xi, et al. Characteristic AI Agents via Large Language Models. arXiv preprint arXiv:2403.12368, 2024. https://arxiv.org/abs/2403.12368
- LIFECHOICE : XU, Rui, et al. Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing?. arXiv preprint arXiv:2404.12138, 2024. https://arxiv.org/abs/2404.12138
- Character Persona Training (CPT) : PARK, Jeiyoon; PARK, Chanjun; LIM, Heuiseok. Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona. arXiv preprint arXiv:2405.19778, 2024. https://arxiv.org/abs/2405.19778
論文の一覧表
評価方法やデータ・対象についてまとめて一覧表にしました。
モデル名 | 手法 | 学習方法 | 評価方法 | 対象 |
---|---|---|---|---|
ChatHaruhi | プロンプト制御 、 キャラクターの記憶抽出 | データセット構築 (22,000の対話と31,000のシミュレーション対話) | 自動評価 (詳細不明、BLEU/ROUGEなど推測)と 人間評価 (キャラクターの口調、知識、個性の模倣度) | 32の中国/英語のTV/アニメキャラクター |
Character-LLM | 経験再構築 による キャラクター特化エージェント の訓練 | ファインチューニング (LLaMA 7Bなど) | インタビュー形式 (キャラクターのプロフィール、経験、感情状態の記憶と再現度)、 多様な人格の評価 、 ベースラインモデルとの比較 | ベートーヴェン、ジュリアス・シーザー など歴史上の人物、架空の人物 |
Character100 | ゼロショット/Few-shot学習 、 LoRA/QLoRA によるファインチューニング | LoRA/QLoRA (ファインチューニング)、 ゼロショット学習 、 Few-shot学習 | 背景知識の一貫性 (BLEU, ROUGE, セマンティック類似度, Hit@k)と スタイルの整合性 (識別モデルで評価) | Wikipediaで最も訪問された100人の人物 |
LIFECHOICE | キャラクターの意思決定シミュレーション 、 CHARMAP (記憶検索) | データセット構築 (1,462の意思決定点) | 複数選択問題 による正解率評価、 人間評価 (人間の選択との比較)、 データリーク対応 (レビュー数による知名度評価)、 モチベーション分析 (性格、感情、価値観など) | 388の小説からの1,462のキャラクター |
Character Persona Training (CPT) | キャラクターペルソナの構築 、 時間軸に沿った変化の学習 、 CharacterGPT | アシスタントAPI を活用した対話型ペルソナ構築、 継続的なペルソナ更新 | BFIによる性格特性評価、 時間軸に沿った変化 の評価、 CharacterGPT の有効性評価、 人間による物語評価 、 対話における評価 、 BFスコア | Megumin, Anya Forger, Frieren, Hitori Gotoh など、アニメキャラクター |
用語の補足説明
- FT(Fine-Tuning,ファインチューニング) : 特定のタスクやデータセットに合わせて、既存の言語モデルのパラメータを調整する手法。LoRA(Hu et al. 2021)やqLoRA(Dettmers et al. 2023)などが一般的のようです。
- LoRA(low-rank adaptation): モデルの一部のパラメータを低ランク行列に分解し、これを更新することで、計算コストを抑えつつ学習することが可能。https://arxiv.org/abs/2106.09685 解説記事
- Retrieval-Augmented Generation (RAG) : 外部の知識源から情報を取得し、それを基にテキストを生成する手法。キャラクタの記憶や知識として情報を引き出すような使われ方をするようです
- LLM (Large Language Model) : 大規模言語モデル。ChatGPTやGPT-4、Llamaなどのモデルを指します。
- RPLA (Role-Playing Language Agent) : ロールプレイング言語エージェント。特定の人物やキャラクターになりきって応答するAIシステム。
- BFI(Big Five Inventory) : 性格特性評価の方法の一つ(John, Donahue & Kentle 1991)。
- JOHN, Oliver P.; DONAHUE, Eileen M.; KENTLE, Robert L. Big five inventory. Journal of personality and social psychology, 1991. https://doi.org/10.1037/t07550-000
各モデルの特徴
ChatHaruhi
- ChatHaruhi : LI, Cheng, et al. Chatharuhi: Reviving anime character in reality via large language model. arXiv preprint arXiv:2308.09597, 2023. https://arxiv.org/abs/2308.09597 https://github.com/LC1332/Chat-Haruhi-Suzumiya
アニメやTVキャラクターとして対話を行うシステムです。
- 目的 :特定のキャラクターの口調、知識、性格を模倣し、ファンが原作を追体験できるようにすることを目指しています。
- 技術:
- キャラクターの記憶データベース :原作の台本から会話を抽出し、ユーザーの質問に関連する場面を検索します。
- プロンプト制御 :キャラクターの設定、性格、過去の会話履歴をプロンプトに含めます。
- 対話生成 :ChatGPTなどのLLMを使用し、キャラクターの記憶とプロンプトに基づいて応答を生成します。
- データセット:
- 32種類のTV/アニメキャラクターを対象とした 54,000以上の対話データ を収集しています。
- 原作の会話と自動生成されたシミュレーション対話を含み、 中国語と英語 の両方に対応しています。
- モデル :
- ChatGPTやClaude のような大規模言語モデルをベースに、 7Bサイズの比較的小規模なモデル でも動作します。
- ファインチューニング により、特定のキャラクターの口調や知識を学習させます。
- ChatGLM2-6B モデルをファインチューニングしたモデルも利用可能です。
- 評価 :
- 自動評価と人間による評価 の両方で、ロールプレイ能力の向上を評価します。
- 評価には、 対話の質 だけでなく、 キャラクターの一貫性 も考慮します。
- 研究としては途中段階の印象。定量的な評価もこれから。
ChatHaruhiは、 キャラクターの記憶データベース と プロンプト制御 を組み合わせることで、LLMがより 自然でキャラクターに沿った対話 を実現することを可能にしています。また、 多言語に対応 しているため、グローバルな利用が可能です。
その名の通り、「涼宮ハルヒの憂鬱」を題材として使っています。この著者、ハルヒ大好きなんだろうな。
Character-LLM
- Character-LLM : SHAO, Yunfan, et al. Character-llm: A trainable agent for role-playing. arXiv preprint arXiv:2310.10158, 2023. https://arxiv.org/abs/2310.10158
Character-LLMは、LLMを用いて、より深い人格や感情を持つキャラクターのシミュレーションを目指すシステムです。単なるプロンプトではなく、キャラクターの経験を学習させる点が特徴です。
- 目的 :
- 特定の人物のプロフィール、経験、感情状態を学習 したエージェントの訓練。
- キャラクターの経験を編集 し、 パーソナルなシミュラクラ(模像)を作成 。
- キャラクターの記憶、価値観、人格を評価 するフレームワークの提供。
- 人間らしいロールプレイング の実現。
- 技術 :
- 経験の再構築 :LLMで、 人物の経験に基づきシーンを抽出 し、 詳細な経験 を生成。
- 経験のアップロード : 再構築された経験をLLMに学習 させ、 キャラクターの性格や感情を形成 。
- 保護的な経験 : 矛盾する状況を学習 させ、 モデルの「幻覚」を軽減 。ベートーベンにpythonコードを質問するとか。
- プロフィールの収集 : Wikipediaなどから キャラクターの属性に関する情報を収集 。
- シーンの抽出 : キャラクターの経験に基づいて、場所や背景を含むシーン を抽出。
- インタラクション : キャラクターの 認知プロセス、発話、行動をテキスト形式で表現 。
- 学習 : LLaMAなどの 基盤モデルを、各キャラクターの経験データでファインチューニング 。
- 評価 :
- 訓練されたエージェントにインタビュー し、 キャラクターの記憶や経験の再現度 を評価。
- AlpacaやVicunaなどとの比較 で、 Character-LLMの有効性 を検証。
- 自動評価と人間評価 を実施。
- データセット :
- 歴史上の人物や架空の人物 の プロフィールと経験データ を収集。
- 各キャラクターの 経験データは、シーンごとに複数のインタラクション で構成。
- 倫理的配慮 :
- 公開情報からプロフィールを収集 し、 個人情報やプライバシーの問題を回避 。
- オープンソースのLLM を使用し、 有害なコンテンツの生成を抑制 。
- その他 :
- NPC 、オンラインサービスなど、 様々なLLMアプリケーションでの活用 が期待される。
- 将来的に は、特定の行動ができるエージェントや、人間や他のエージェントとのインタラクションを可能にする事を目指す。
ポイント :
- プロンプトだけでなく、キャラクターの経験を学習 させることで、 より深い人格と感情をシミュレート 。
- 経験の再構築、アップロード、保護的な経験 の3ステップで キャラクターの個性を学習 。
- 知らないことは知らないと答えるようにするため、保護的な経験を与える。モデルの信頼性を向上 。
- トレーニング可能なエージェント というアプローチは、 幅広い応用可能性 を秘める。
- Wikipedia から人物背景プロファイルを取得する点は、 効率的かつ信頼性の高いデータ収集方法 。
図:Character-LLM(Shao et al.2023)
この論文は興味深い論文と思います。
例えば、キャラクタが知らないことを知らないと言える点や、
歴史上の人物を取り上げることで、Wikipediaから人物背景プロファイルを取得している点が面白いと思います。
この論文の手法については2024年の日本の人工知能学会でも取り上げている発表論文がありました。
木本晴久, et al. Character-LLM の評価指標の検討. In: 人工知能学会全国大会論文集 第 38 回 (2024). 一般社団法人 人工知能学会, 2024. 4Xin2109.
Character-100
- Character-100 : WANG, Xi, et al. Characteristic AI Agents via Large Language Models. arXiv preprint arXiv:2403.12368, 2024. https://arxiv.org/abs/2403.12368
Character-100は、 大規模言語モデル(LLM) を用いた 特徴的なAIエージェントの構築 と評価を目的とした研究です。
- データセット :
- Character100 というデータセットを構築。 Wikipediaから抽出した106人の有名人のプロフィール を使用。
- 背景知識コーパス(Cbg) と 発話スタイルコーパス(Cstyle) の2つのサブセットで構成。
- Cbg には、 人物のプロフィール が含まれ。
- Cstyle には、 各人物の会話スタイルを学習させるための17,000以上の文 が含まれる。
- 技術 :
- ゼロショットプロンプト と Few-shot/In-contextラーニング の2つのプロンプトテンプレートを使用。
- ゼロショット では、 人物のプロフィールのみ をLLMに与える。
- Few-shot では、 プロフィールの使用例 をプロンプトに追加。
- LoRA(Low-Rank Adaptation) と QLoRA(Quantized LoRA) という 効率的なファインチューニング技術 を使用。
- 評価 :
- 背景知識の一貫性 と スタイルの一貫性 を評価。
- BLEU、ROUGE、セマンティック類似度 などの指標を使用し、定量的に評価。
- ChatGPTなどの既存のLLMと比較 し、性能を検証。
- 結果 :
- Few-shot学習は、背景知識の一貫性を向上 させる。
- 指示チューニングされたモデルは、性能が高い 。
- QLoRAは、LoRAよりも効果的 である。
- Few-shot設定は、スタイルの一貫性を弱める 場合がある。
- ChatGPTは、スタイルの一貫性に優れている が、背景知識の一貫性は低い場合がある。
- 課題 :
- 既存のLLMは、 キャラクターの知識の幻覚や不正確さ、スタイルの一貫性の欠如 といった問題を抱えている。
- 一部のLLMは、ファインチューニング後に性能が低下する場合がある。
ポイント :
- 100人の人物のデータセット を用いて、 LLMのキャラクター模倣能力 を評価。
- Few-shot学習やファインチューニング などの 様々な技術 を比較。
- 背景知識とスタイルの一貫性 を評価する 定量的な指標 を導入。
- 今後のLLMの改善点 を明確化。
LIFECHOICE:
- LIFECHOICE : XU, Rui, et al. Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing?. arXiv preprint arXiv:2404.12138, 2024. https://arxiv.org/abs/2404.12138
LIFECHOICEの研究は、 大規模言語モデル(LLM)が小説の登場人物の意思決定を再現できるか を評価します。
- 目的 :
- 小説のキャラクターの過去の行動 に基づき、 意思決定をシミュレーション する。
- キャラクターの知識、経験、人格 を理解し、 意思決定の動機 を分析する。
- 長文脈理解、時間的推論、複雑な動機 の解釈能力を評価する。
- データセット :
- LIFECHOICE データセットは、 388冊の小説から1462のキャラクターの意思決定 を抽出。
- 専門家によるキャラクター分析 を利用し、 意思決定の理由と小説の文脈 を付与。
- 各サンプルは、 先行する文脈、現在のシナリオ、質問、選択肢 で構成される。
- 技術 :
- CHARMAP は、 シナリオ特有のプロファイル構築 を行い、 キャラクターの記述と記憶 を組み合わせる。
- 記憶検索 を用いて、 現在の状況に関連する情報を特定 する。
- Long-context LLM を使用し、 長文脈での意思決定 を評価する。
- 実験 :
- 様々なLLM (GPT-3.5, GPT-4, LLaMA-3, Claude-3, Gemini, Mixtral)と RPLAフレームワーク を使用。
- LLMが過去のデータに基づき意思決定 できるか検証する。
- 動機タイプ(性格主導型、プロット主導型) が意思決定に与える影響を分析。
- 書籍のレビュー数 と データリーク の関連性を調査する。
- 結果 :
- LLMは意思決定をある程度再現可能 だが、 人間の判断には及ばない 。
- CHARMAP は、 既存手法より高い精度 を達成。
- キャラクターの記述と記憶の両方が意思決定に重要 。
- データリークはレビュー数の多い書籍で顕著 。
- 考察 :
- キャラクターの全体的なストーリー を捉えることが、 関連する記憶検索に重要 。
- 複雑な動機を持つ意思決定の再現は難しい 。
- 性格主導型 の決定は、 安定した傾向 を示す。
- プロット主導型 の決定は、 急激な変化 を示す。
- 特徴 :
- 小説のキャラクターの意思決定 という複雑なタスクに焦点を当てる。
- 専門家によるキャラクター分析 を利用し、 キャラクターの動機に基づく意思決定 を評価する。
- CHARMAP で、 シナリオ特有のプロファイル構築 を行い、 既存手法よりも高い精度 を達成する。
所感:
この研究は、 LLMがキャラクターの行動を模倣する上で、単に知識や口調を再現するだけでなく、過去の経験や動機に基づいた意思決定を理解し、再現することが重要 であることを示唆しています。また、 CHARMAP のような手法が、 より高度なキャラクターシミュレーションを可能にする 可能性を示しています。
Character Persona Training (CPT):
- Character Persona Training (CPT) : PARK, Jeiyoon; PARK, Chanjun; LIM, Heuiseok. Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona. arXiv preprint arXiv:2405.19778, 2024. https://arxiv.org/abs/2405.19778
この論文では、 キャラクターのペルソナを構築し、一貫性と役割特有の知識獲得を目指しています 。
アニメキャラのめぐみん(このすば)、フリーレン(葬送のフリーレン)、アーニャ(SPY×FAMILY)、後藤ひとり(ぼっち・ざ・ろっく!)が対象! 学術慣例でいうと論文の引用で図とか貼っていますが、版権とかで問題があるかもしれないので図は無しです。論文を参照ください。リンクはwikipediaのページです。
- Character Persona Training (CPT) :
- 物語の進行 に合わせて キャラクターのペルソナを段階的に更新 します。
- 小説の章ごとの要約から キャラクターの特性を抽出し、時間軸に沿ってペルソナを再構築 します。
- 性格、外見、動機、背景、感情、関係性、成長と変化、葛藤 という 8つの特性 を定義し、キャラクターを多面的に評価します。
- アシスタントAPI を利用して、 ペルソナを継続的に更新 し、対話の文脈に合わせて変化させます。
- 抽出された特性 は、 ドキュメント内で個別に更新 され、混ざり合うことはありません。
- 内部属性(Type A) と 外部属性(Type B) に分類され、 内部属性は一般化 を、 外部属性は知識の蓄積 を重視します。
- CharacterGPT :
- CPTで構築されたペルソナ を基に、 対話を行うエージェント です。
- ペルソナの一貫性 を保ち、 役割特有の知識を活用 して自然な応答を生成します。
- ドキュメントベースの検索で発生する情報損失や計算コストを最小限 に抑えます。
- 物語の特定の時点のキャラクターと会話 できる機能を提供します。
- 評価 :
- Big Five Inventory (BFI)テスト を用いて、 LLMがキャラクターの個性をどの程度捉えられているか を評価します。
- ストーリー生成タスク では文法 (Grammar)・一貫性 (Coherence)・好感度 (Likability)・関連性 (Relevance)・複雑さ (Complexity)・創造性 (Creativity) の指標で評価を行います。
- 人間による評価(クラウドワーカー7名) と ケーススタディ を用いて、モデルの性能を詳細に分析しています。
- 結果 :
- CharacterGPTは、 ペルソナの一貫性、制御性、役割特有の知識活用 において優れた性能を示します。
- LLMに構造化されたペルソナ を注入することで、 性格の一貫性が向上 します。
- GFIの各項目のサブ項目それぞれで各モデルと人でスコア評価した結果、提案モデルが人のスコアと最も近いという結果。
- ストーリー生成 においても、 人間による評価で高いスコア を獲得しています。
Park et al. 2024 figure2
所感:
この研究は、 キャラクターのペルソナを効果的にモデル化し、対話エージェントに応用するための新しいフレームワーク を提供します。 CPT を通じて、 時間軸に沿ったキャラクターの成長 を捉え、 一貫性のある対話 を実現することが示されています。
性格診断とLLMが近い結果というのが興味深いです。LLMで性格診断してプロファイルを作ってファインチューニングすれば、よりキャラらしい応答ができるというのが面白いと思います。
まとめ
最近のLLMキャラクター論文をまとめた結果、各論文が独自の視点から ロールプレイングAIエージェントの構築と評価 に取り組んでいることがわかりました。
特に、キャラクタの背負っている文化・世界観の一貫性に課題を感じているようです。より高度な人間らしさの再現(ChatHaruhi,Character-LLMなど) や 意思決定の模倣(LIFECHOICE) 、 データセットと評価基準の整備(Character-100) 、そして 時間変化に応じたキャラクターの成長(CPT) の捉え方が重要なポイントです。
これらの研究は、 LLMがキャラクターの行動を模倣する 上で、単に知識や口調を再現するだけでなく、 過去の経験、動機、時間変化に基づいた意思決定 を理解し、再現することが重要です。
将来ここで紹介した手法が、より高度なキャラクターシミュレーションを実現するカギになるかもしれません。
ぜひ、皆さんも一緒にこの分野の研究を進めて、日本のアニメーション・ゲーム作品をサポートしていきたいと思います。
この分野日本語の論文もたくさんあって、研究されています。
次回は日本語のキャラクターLLM研究の論文についても紹介していきたいと思います。
Discussion