物語AI研究:創造性のリファクタリング
はじめに
「AIに書かせたら話が崩壊した」「紙芝居的に画像生成で作ったキャラクターが次のコマに出てこない」――AIで物語をつくってみたことのある人なら一度は感じたことがあるのではないでしょうか。
2026年5月現在では AI物語生成(Story Generation) は まだ 難しいです。
単なるテキスト生成や画像生成を超えて、登場人物・世界観・因果関係・時系列が長距離にわたって整合するコンテンツを自動生成する問題です。この問題が難しいのは、局所的な流暢さだけでなく グローバルな一貫性(consistency)とコヒーレンス(coherence) が同時に求められるからです。
逆にこれができてしまったら、小説・漫画・映画・ゲームなどエンタメコンテンツの世界が根本から変わるかもしれません。
本記事は、2018年から2026年に発表された主要論文を横断的に整理するサーベイ記事です。
論文を探索から文章まで、AI(GPT,claudeなど)を用いてインタラクティブに作っています。
以下のリサーチクエスチョンを軸に解説していきます:
- 各技術世代は何を解決し、何を残したか?(GAN → 拡散モデル → LLM → マルチエージェント)
- 「一貫性」の何が難しく、どう対処されてきたか?
- 生成された物語の品質評価は現在どこまでできているか?
- 実運用への展開に残る障壁は何か?
1. 物語生成の問題設定
1.1 タスクの定義と分類
物語生成研究は大きく次の三つのタスクに分類できます。
| タスク | 入力 | 出力 | 代表手法 |
|---|---|---|---|
| ストーリー可視化 | テキストで記述された物語 | 物語に対応する画像シーケンス | StoryGAN, AR-LDM |
| テキスト物語生成 | 書き出し・あらすじ・制約条件 | 長文テキスト物語 | Re3, StoryBox |
| マルチモーダル物語生成 | テキスト+画像混在の指示 | テキスト+画像が連動した物語 | SEED-Story |
1.2 物語一貫性の定義
物語における「一貫性」は単純ではなく、最低でも以下の4レベルが区別されます [1]:
- キャラクター一貫性:登場人物の外見・性格・行動パターンが物語全体を通して矛盾しない
- シーン・背景一貫性:世界観・場所・物理法則が変わらない
- 時系列・因果一貫性:出来事の前後関係と因果関係が論理的
- 文体・トーン一貫性:語り口、一人称視点、敬語などが統一されている
この分類は後述する「Lost in Stories」[1:1] が体系化した 5カテゴリの一貫性エラー分類 の基礎となっています。
2. 技術の変遷
2.1 黎明期:StoryGAN と条件付き GAN(2018–2021)
StoryGAN(2019)
最初期の代表的研究が StoryGAN [2] です。
- アーキテクチャ:階層的な判別器(story-level + image-level)と Context Encoder を組み合わせた GAN
- Context Encoder:LSTM ベースで物語の文脈を動的に追跡し、各フレームの生成条件に活用
- データセット:Pororo-SV(ポロロアニメ)、CLEVR-SV を構築・公開
StoryGAN の貢献は「物語を画像シーケンスに変換する」タスクを初めて定式化した点にあります。一方で、GAN の学習不安定性と解像度の限界から、長編・複雑シナリオでは視覚品質が劣化しやすかったです。
論文:Li et al., 2019. StoryGAN: A Sequential Conditional GAN for Story Visualization
arXiv:1812.02784
言語構造と常識知識の統合(2021)
GAN ベースの手法に 構文解析木(constituency parse trees) や 常識グラフ を組み込む方向性が生まれました [3] 。双方向学習(dual learning)を使ってテキストと画像の相互整合性を強化するアプローチで、セマンティック理解の精度が向上しました。
2.2 拡散モデルへのシフト(2022–2023)
AR-LDM:auto-regression型潜在拡散モデル(2022)
Stable Diffusion の登場を契機に、物語生成も拡散モデル中心の時代に入りました。AR-LDM [4] はその先駆けです。
ここでいう auto-regression は「過去に生成した出力を条件に、次の出力を順次生成する」方式を指します。統計学の AR が主に時系列予測を目的とするのに対し、本節では物語フレームの逐次生成プロセスを指す語として使います。
[テキスト説明 t_i] + [過去フレーム h_{i-1}]
↓ Cross-Modal Attention
[フレーム画像 x_i を生成]
- 過去に生成した画像と説明文を条件として使い、順次フレームを生成(auto-regression)
- キャラクター適応:訓練時に未見のキャラクターも一般化できる機構
- Pororo-SV・Flintstones-SV・VIST の全データセットで当時の最高性能を達成
論文:Pan et al., 2022. Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
arXiv:2211.10950
Make-A-Story:Visual Memory Module(2022)
Visual Memory Bank という記憶機構を導入した手法です [5]。
- 生成済みの各フレーム画像とテキストをメモリに蓄積
- Sentence-Conditioned Soft Attention でメモリから関連情報を選択的に取り出す
- 「彼女は」「それは」などの照応詞解決(reference resolution)にも対応
- 複数キャラクター・複数シーンにまたがる一貫性が大幅に向上
論文:Rahman et al., 2022. Make-A-Story: Visual Memory Conditioned Consistent Story Generation
arXiv:2211.13319
2.3 LLM による長文物語生成(2022–2024)
GPT-3 と Few-Shot 生成(2020)
超大規模事前学習によって、プロンプトだけである程度の物語生成が可能になりました [6]。しかしコンテキスト長の制限と長距離整合性の問題から、実用的な長編生成にはさらなる工夫が必要でした。
論文:Brown et al., 2020. Language Models are Few-Shot Learners
arXiv:2005.14165
Re3:再帰的再プロンプトと改稿(2022)
Re3(Recursive Reprompting and Revision) [7] は長編生成の破綻に正面から取り組んだ先駆的手法です。
- 粗いあらすじ生成 → 章ごとの計画 → 段落生成、という階層的パイプライン
- 各ステップで直前に生成したテキストを要約してプロンプトに再注入(再帰的再プロンプト)
- 生成後に矛盾・冗長箇所を検出して再生成(改稿ループ)
「生成器の性能」より「生成プロセス設計」が長編品質を左右する、という教訓を与えました。
論文:Yang et al., 2022. Re3: Generating Longer Stories With Recursive Reprompting and Revision
arXiv:2210.06774
Self-Refine:自己フィードバック改稿(2023)
Self-Refine [8] は外部教師なしで品質改善を行うフレームワークです。
生成 → 自己批評 → 改稿 → 自己批評 → ...
人物口調のぶれや伏線の放置など、物語特有の欠陥を自動で検出・修正できる可能性を示しました。一方で自己評価バイアスにより誤った方向に収束するリスクも指摘されています。
論文:Madaan et al., 2023. Self-Refine: Iterative Refinement with Self-Feedback
arXiv:2303.17651
2.4 マルチエージェント・マルチモーダル統合(2023–2025)
Generative Agents(2023)
Generative Agents [9] は「プロットを直接生成する」代わりに、記憶・内省・計画を持つエージェント群の相互作用から物語を創発させる アプローチを示しました。
- 各エージェント(登場人物)が目標・感情・記憶を持ち、独立して行動
- エージェント間の相互作用がイベント連鎖を自然に生み出す
- キャラクター一貫性が行動規則と状態管理によって担保される
論文:Park et al., 2023. Generative Agents: Interactive Simulacra of Human Behavior
arXiv:2304.03442
この論文は有名で、
他の方のブログですがzennの中でも紹介されています。
SEED-Story:マルチモーダル長編生成(2024)
SEED-Story [10] は LLM(Multimodal Large Language Model)と画像生成モデル(SD-XL)を深く統合した、マルチモーダル長編生成手法です。
- De-tokenizer:LLM の出力トークンを画像生成モデルの入力形式に変換するアーキテクチャ
- Multimodal Attention Sink:最長 25,000 トークンの長編生成でも計算量を抑制
- キャラクター・スタイルの一貫性をインタラクティブな改稿ループで維持
論文:Yang et al., 2024. SEED-Story: Multimodal Long Story Generation with Large Language Model
arXiv:2407.08683
Storynizor:ID 注入による一貫性制御(2024)
Storynizor [11] は、キャラクターの識別子(ID)を画像生成プロセスに直接埋め込む手法を提案しました。
- Inter-Frame Synchronized ID Injection:フレーム間でキャラクター ID を同期
- Shuffled ID Management:複数キャラクターを効率的に管理
- 評価指標として ID Consistency(IDC)と Inter-Frame Consistency(IFC)を導入
論文:Ma et al., 2024. Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection
arXiv:2409.19624
2.5 最新動向(2025–2026)
SceneDecorator:シーン計画と整合性制御(2025)
SceneDecorator [12] は「キャラクター一貫性」に比べて軽視されがちだった シーン・背景一貫性 に正面から取り組みました。
- Global-to-Local Scene Planning:全体のシーン構成から個別シーンの詳細を生成
- Long-Term Scene-Sharing Attention:複数フレームで背景要素を共有する注意機構
- VLM を使ったシーン間論理整合性の自動検証
論文:SceneDecorator, 2025. Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency
arXiv:2510.22994
StoryBox:マルチエージェント協調長編生成(2025)
StoryBox [13] は Generative Agents の発想をさらに発展させ、ボトムアップとトップダウンのハイブリッド生成 を実現しました。
- マルチエージェント協調シミュレーション:計画役・執筆役・検証役など役割分担
- Bottom-Up 生成:キャラクター相互作用からイベントが自然に連鎖し、物語が展開
- Top-Down 制約:全体的な物語枠組みから逸脱しないよう制約を付与
- 単一 LLM に比べ、自然性と制御可能性のトレードオフが改善
論文:StoryBox, 2025. Collaborative Multi-Agent Simulation for Hybrid Bottom-Up Long-Form Story Generation Using Large Language Models
arXiv:2510.11618
StoryReasoning Dataset(2025)
CoT(Chain-of-Thought)を使った推論に基づく物語生成を評価するためのデータセットです [14]。
映画画像 52,016 枚から構成された 4,178 件の物語を収録し、各フレームのキャラクター・オブジェクト・シーン情報を構造化テーブルとして付与したうえで、テキスト中の指示語をフレーム内の視覚的実体に紐づける grounding スキームを導入しています。この枠組みを使って Qwen2.5-VL 7B をファインチューニングした Qwen Storyteller と、ファインチューニングなしの同モデルを比較した結果、1 ストーリーあたりの幻覚(hallucination)数が 4.06 → 3.56(−12.3%)に減少し、創造性スコアが 2.58 → 3.38(+31.0%)に向上しました。一貫性と創造性が同時に改善できることを実証した点が本研究の主な貢献です。
論文:Liu et al., 2025. StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation
arXiv:2505.10292
Lost in Stories:一貫性バグの体系的解析(2026)
Lost in Stories [1:2] は、LLM による長編物語生成で発生する「一貫性バグ」を体系的に分析した診断論文です。
5カテゴリの一貫性エラー分類:
| エラーカテゴリ | 例 |
|---|---|
| Factual Errors | 登場人物が途中で消える、数値の矛盾 |
| Temporal Errors | 因果関係の逆転、時間経過の不自然さ |
| World-Building Errors | 物理法則違反、地理的矛盾 |
| Character Development Errors | 性格の急変、過去経験との行動矛盾 |
| Narrative Style Errors | 敬語・一人称の混在、描写スタイルの急変 |
また、長さに依存しない評価指標として Consistency Error Density (CED) を提案しました:
論文:Lost in Stories, 2026. Consistency Bugs in Long Story Generation by LLMs
arXiv:2603.05890
Directing the Narrative:コヒーレンスと文体の微調整制御(2026)
Directing the Narrative [15] は、RLHF による指示追従を超えて、物語コヒーレンスと文体を安定制御するためのタスク特化ファインチューニング手法を提案しました。商用利用で求められる「ブランド文体」や「年齢層別文体」の制御に直結する研究です。
核となるアイデアと技術:
商用品質の安定制御は、モデル適応・生成時制御・品質ゲート の3層アーキテクチャで実現されます。
| 制御層 | 主な技術 | 役割 |
|---|---|---|
| モデル適応 | LoRA アダプター、DPO、物語特化 RLHF | 文体・コヒーレンスをモデル自体に焼き込む |
| 生成時制御 | 状態メモリ注入、制約デコーディング | 推論段階でリアルタイムに一貫性と安全性を維持 |
| 品質ゲート | LLM-as-Judge、CED 閾値トリガー | 出力前に一貫性エラーを自動検出・再生成 |
① モデル適応(ファインチューニング)
- LoRA / Adapter fine-tuning:ベースモデルに「ブランド文体アダプター」を差し込む軽量設計です。本番環境では複数アダプターをスワップするだけで、同一インフラから異なる文体を引き出せます。
- DPO(Direct Preference Optimization):「前章と矛盾する生成物」を負例・「一貫した生成物」を正例としてペアを作り、報酬モデルなしでコヒーレンスを直接最適化します。PPO よりも学習が安定しており、商用運用に向いています。
- 物語特化 RLHF:「キャラクター行動の一貫性」「伏線の回収率」「文体統一性」を独立した報酬軸として設計した PPO 学習を行います。汎用の好み学習では捉えられない物語固有の品質次元を改善できます。
② 生成時制御(推論段階)
- 状態メモリ注入:毎章の生成前に「登場人物の現在状態・未回収の伏線・禁止表現リスト」をコンテキストへ自動注入します(Re3 / Storynizor の手法を応用)。モデル自体を変えずに一貫性を大幅に改善できます。
- 制約デコーディング(Constrained Decoding):NGワード・年齢レーティング違反パターン・特定のキャラクター名の誤記などを、デコーディング段階でトークン確率マスクによってリアルタイムに排除します。
③ 品質ゲート(自動審査)
- LLM-as-Judge(ConStory-Checker 型):生成物を別の LLM が審査し、Factual / Temporal / World-Building / Character / Style の5カテゴリで一貫性エラーを自動検出します。F1=0.678 で人間専門家の 3.2 倍の検出率を実現します [1:3]。
- CED 閾値トリガー:CED(Consistency Error Density)が設定閾値を超えた段落のみ再生成をトリガーする仕組みにより、品質を保証しながら計算コストを最小化できます。
論文:Directing the Narrative, 2026. A Finetuning Method for Controlling Coherence and Style in Story Generation
arXiv:2603.17295
3. 技術の全体像:まとめと比較
3.1 技術世代ごとの貢献と限界
| 時期 | 技術世代・代表手法 | ✅ 貢献 | ❌ 限界 |
|---|---|---|---|
| 2018–2021 | StoryGAN / 条件付き GAN | タスク定式化・データセット構築 | 解像度・学習安定性・長編への弱さ |
| 2022 | 拡散モデル(AR-LDM, Make-A-Story) | 高品質画像・メモリ機構・照応詞解決 | 長距離一貫性・シーン背景の破綻 |
| 2022–2023 | LLM テキスト生成(Re3, Self-Refine, ToT) | 長編対応・再帰改稿・自己修正 | 視覚モダリティとの統合なし・評価が困難 |
| 2023–2024 | マルチモーダル統合(SEED-Story, Storynizor) | テキスト+画像の同時生成・長大コンテキスト | 計算コスト・シーン一貫性 |
| 2024–2025 | マルチエージェント(Generative Agents, StoryBox) | キャラクター整合・自然な物語展開・制御可能性 | エージェント協調の複雑さ・評価ベンチの不足 |
| 2025–2026 | 診断・制御(Lost in Stories, Directing the Narrative) | バグ分類・定量評価・文体制御の微調整 | 汎用ベンチマークの整備はまだ発展途上 |
3.2 アプローチ別の特性比較
| アプローチ | 代表手法 | 強み | 弱み |
|---|---|---|---|
| 生成基盤(スケーリング) | GPT-3, InstructGPT | 汎用性が高く追加設計なしで利用可能 | 長距離整合性・スタイル制御が不十分 |
| 再帰的改稿パイプライン | Re3, Self-Refine | 生成後の修正で品質向上が見込める | 推論コスト増大、自己評価バイアスのリスク |
| エージェント・探索型計画 | Generative Agents, ToT | キャラクター行動から一貫した物語を創発 | 計算コスト大、プロンプト設計が複雑 |
| 構造化計画(シーン・状態管理) | Storynizor, StoryBox, SceneDecorator | 長距離整合性を設計レベルで保証しやすい | パイプライン複雑化、柔軟性を損なうリスク |
| ファインチューニング | InstructGPT, Directing the Narrative | 文体・スタイルを安定制御できる | 大量の訓練データと学習コストを要する |
| 一貫性評価・診断 | Lost in Stories, StoryReasoning | 問題を類型化し改善を測定可能にする | 評価モデル自体の信頼性に依存する |
3.3 共通して残る課題
- 長距離整合性:章をまたぐ伏線・人物関係・世界観の維持が依然困難
- 評価の難しさ:BLEU/FID 系では「面白さ」「読者没入感」を捉えられない
- 制御可能性:ジャンル・文体・年齢レーティング・結末条件の厳密な制御
- 実運用コスト:マルチエージェント・マルチモーダル手法は計算コストが高い
- 著作権・安全性:商用展開時の出典追跡(provenance)とコンテンツ安全性管理
4. 課題の体系化
調査論文を横断して共通する課題を4軸で整理します。
4.1 長距離整合性の維持
本質: 10,000語超の長編では、序盤で確立した設定(人物の外見・能力・世界観ルール)を終盤まで維持するための文脈管理が困難です。
現状の対処策: Re3(状態メモリ更新)、Storynizor(ID 管理)、Generative Agents(記憶・内省機構)、SceneDecorator(シーン制約)が各アプローチを提示しています。しかし Lost in Stories [1:4] が示すとおり、最高性能モデル GPT-5-Reasoning でも CED=0.113(1万語あたり 0.113件)のエラーが残存します。
未解決問題: エラーは物語の 中盤(40〜60%付近)に集中 し、長距離追跡失敗(Geographical Contradictions は平均 Gap=31%)が主要因です。
4.2 制御可能性の限界
本質: ジャンル・文体・年齢レーティング・結末条件など多次元の制約を同時に満たすのが困難です。
現状の対処策: RLHF(InstructGPT)、ファインチューニング(Directing the Narrative)、パーソナライズ(MirrorStories)が個別次元を改善しています。
未解決問題: 複数制約を同時に課した場合の性能劣化と、制約間のトレードオフ(一貫性↑ vs 創造性↓)が体系的に研究されていません。
4.3 評価手法の限界
本質: 物語の「面白さ」「没入感」「読後感」は定量化が困難で、既存自動評価指標では捕捉できません。
現状: CED/GRR [1:5]、LLM-as-judge(ConStory-Checker: F1=0.678、人間専門家の3.2倍の検出率)、CoT ベース推論評価 [14:1] が新軸を加えつつあります。
未解決問題: 「どんでん返し」「伏線回収」など意図的な曖昧性との自動判別が未確立です。多言語・多文化対応も課題です。
4.4 実運用上の障壁
本質: 学術ベンチ上の性能向上が、クリエイティブワークフローの価値に直結しません。
知見: Mirowski et al. [16] は「単発生成性能よりも共同制作プロセスへの適合性が価値を左右する」と実務者評価から示しました。
未解決問題: 著作権ガバナンスと出典追跡、生成物の安全性審査の自動化、インタラクティブ編集 UI の設計が未開拓です。
5. まとめ:各問いへの回答
冒頭で設定した4つの問いに対して、論文群から得られた知見をもとに回答します。
問い1(技術の変遷): 2020〜2026年は「基盤構築(汎用 LLM の転用)→ アルゴリズム工夫(再帰改稿・エージェント・探索)→ 制御・評価精緻化(ファインチューニング・診断)」という3段階で発展しました。「いかに生成するか」から「いかに制御・評価するか」へのパラダイムシフトが起きています。物語生成研究はストーリー可視化・テキスト物語生成・マルチモーダル物語生成の3タスクに分類できますが、いずれも統一的な評価ベンチマークはまだ確立されていません。
問い2(一貫性と制御可能性): 一貫性エラーは5カテゴリ(時系列・キャラクター・世界観・事実・文体)に分類でき、Factual & Detail と Timeline が全モデルで最多です [1:6]。状態メモリ管理(Re3、Storynizor)やエージェントシミュレーション(Generative Agents)が対処策として確立されましたが、最高性能モデルでもエラーは残存し、物語中盤(40〜60%)に集中するという構造的な特徴があります。制御面では、文体制御はファインチューニング [15:1]、コヒーレンスは再帰改稿とシーン計画(SceneDecorator)が確立されている一方、複数の制御次元を同時に最適化する統合的枠組みはまだありません。
問い3(評価手法の現状): BLEU/FID 系では面白さや整合性の捕捉に限界があります。CED/GRR [1:7] や LLM-as-judge(人間専門家の 3.2 倍の検出率)など新指標が提案されており、自動評価の精度は向上しつつあります。ただし意図的な物語技法(どんでん返し・伏線)の正確な扱いは今後の課題です。
問い4(実運用の残課題): Mirowski et al. [16:1] が示したとおり、「単発生成性能」より「共同制作プロセスへの適合性」が価値を左右します。著作権ガバナンス、安全性審査の自動化、インタラクティブ編集 UI の設計が残課題として挙げられます。
「本当に面白い物語を自動生成できるか」という問いへの答えはまだありません。物語生成は創造性・整合性・評価難という三重の困難を持つ問題だからこそ、AI 研究の最前線として引き続き挑戦的なフィールドであり続けるでしょう。
今後の注目方向性:
- 物語特化 RLHF(読者嗜好・年齢層別の報酬設計)――Directing the Narrative [15:2] が物語特化ファインチューニングの有効性を示したことを起点とするサーベイ著者による展望
- 長編専用ベンチマーク(章間整合性を定量評価するデータセット)――Lost in Stories [1:8] および StoryReasoning [14:2] が現行評価指標のギャップを指摘したことを起点とするサーベイ著者による展望
- 商用環境での著作権ガバナンス(出典追跡・コンテンツ安全性)――Mirowski et al. [16:2] が業界実務者評価から著作権・安全性を課題として明示したことを起点とするサーベイ著者による展望
- 人間と AI の協創ワークフロー(編集者・作家との共同制作プロセスの設計)――Mirowski et al. [16:3] より(「単発生成性能よりも共同制作プロセスへの適合性が価値を左右する」と明示)
- 多言語・クロスカルチャーへの拡張(現在の主要ベンチは英語フィクション限定)――Lost in Stories [1:9] の Future Work セクションより
参考文献
-
Lost in Stories, 2026. Consistency Bugs in Long Story Generation by LLMs. arXiv:2603.05890 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Li, Y., et al. (2019). StoryGAN: A Sequential Conditional GAN for Story Visualization. CVPR 2019. arXiv:1812.02784 ↩︎
-
Maharana, A., & Bansal, M. (2021). Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization. EMNLP 2021. ↩︎
-
Pan, X., et al. (2022). Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models. WACV 2024. arXiv:2211.10950 ↩︎
-
Rahman, M.A., et al. (2022). Make-A-Story: Visual Memory Conditioned Consistent Story Generation. CVPR 2023. arXiv:2211.13319 ↩︎
-
Brown, T.B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165 ↩︎
-
Yang, K., et al. (2022). Re3: Generating Longer Stories With Recursive Reprompting and Revision. EMNLP 2022. arXiv:2210.06774 ↩︎
-
Madaan, A., et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. NeurIPS 2023. arXiv:2303.17651 ↩︎
-
Park, J.S., et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023. arXiv:2304.03442 ↩︎
-
Yang, Y., et al. (2024). SEED-Story: Multimodal Long Story Generation with Large Language Model. ICCVW 2025. arXiv:2407.08683 ↩︎
-
Ma, Y., et al. (2024). Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection. arXiv:2409.19624 ↩︎
-
SceneDecorator, 2025. Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency. arXiv:2510.22994 ↩︎
-
StoryBox, 2025. Collaborative Multi-Agent Simulation for Hybrid Bottom-Up Long-Form Story Generation Using Large Language Models. arXiv:2510.11618 ↩︎
-
Liu, S., et al. (2025). StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation. arXiv:2505.10292 ↩︎ ↩︎ ↩︎
-
Directing the Narrative, 2026. A Finetuning Method for Controlling Coherence and Style in Story Generation. arXiv:2603.17295 ↩︎ ↩︎ ↩︎
-
Mirowski, P., et al. (2022). Co-Writing Screenplays and Theatre Scripts with Language Models: An Evaluation by Industry Professionals. ACL 2023. arXiv:2209.14958 ↩︎ ↩︎ ↩︎ ↩︎
Discussion