Beyond LLM > ゲームエンジン不要、拡散モデルを使ったキャラクターコントロールの考え方
さて、ある程度動画を作成することができたら、次に、この動画をベースとして、キャラクターや環境をコントロールするにはどうしたら良いか考えてみましょう。これは世界モデルの中でキャラクターを動かすベースとなる重要なステップです。
まず、世界モデルをシミュレーションするにあたって、既存のゲームなどを想像してみます。ここでは戦争をモチーフとした、FPSのようなものを考えてみましょう。
作成の流れは、プラモデルのジオラマを思い浮かべると良いかもしれません。まずは主役となる主人公のプラモデルを作って、それをジオラマに配置するようなイメージです。段階的に構築していくことで、複雑な動画シーンも管理しやすくなります。
1. キャラクターのペルソナを作成
まずはペルソナの作成を行います。動画モデルの中で一貫性の担保は非常に重要な課題です。多くの動画モデルの中ではLoRAなどを作って一貫性を担保するなどの工夫が行われていますが、そのLoRAを作成する上で、ペルソナを作成してみます。
ペルソナは、漫画や映画などを作成する上で必ず作成されている要素です。以下のような項目を詳細に設定しましょう。
外見の設定:
- 身長、体格、髪型、顔の特徴
- 服装のスタイル(戦闘服、装備品など)
- 特徴的なアクセサリー(腕時計、ネックレス、バッジなど)
- 傷跡やタトゥーなどの識別マーク



性格と行動特性:
- 性格(臆病、大胆、慎重、衝動的など)
- 戦闘スタイル(攻撃的、防御的、戦略的など)
- 得意な武器や戦術
- 癖や特徴的な動き
性格設定は特に重要で、臆病な性格なのか、大胆な性格なのかなどによって行動に大きく違いが出ます。例えば、臆病なキャラクターは物陰に隠れながら慎重に進み、大胆なキャラクターは正面突破を試みるでしょう。
2. 環境のイメージ作成
次にキャラクターを配置する環境イメージを作成します。環境設定も詳細に行うことで、よりリアルで没入感のある世界を構築できます。



環境の基本設定:
- ロケーション(都会、田舎、荒野、屋内など)
- 時代設定(現代、近未来、歴史的時代など)
- 天候と時刻(晴れ、雨、夜、夕暮れなど)
- 季節感(雪景色、紅葉、新緑など)
詳細な環境構築:
都市であれば元となる地図や建物の配置図があればより詳細に作ることができます。戦場であれば、遮蔽物の位置、高低差、視界の開け具合なども考慮に入れましょう。環境は単なる背景ではなく、キャラクターの行動を制約し、可能性を広げる重要な要素です。
環境における重要ポイント:
- 遮蔽物や障害物の配置
- 移動可能な経路
- 危険地帯と安全地帯
- ランドマークとなる建造物
3. カメラの設定とキャラクターの配置
作成したキャラクターを環境に配置してみます。必ず、視聴者はカメラを通じて見ているので、カメラのアングルを意識することが大事です。これはBlenderなどの3Dツールでも同様で、カメラのポジションを決めることが求められます。
生成AIの場合はmotion LoRAなどの仕組みを使うことでこうしたアングルを決めます。
主要なカメラアングル:
トラッキングショット(キャラクターを追従)

キャラクター全体が見え、周囲の環境も把握できる標準的な視点。アクションゲームで最もよく使われるアングルです。
オーバーショルダー(肩越し視点)

キャラクターにより近づいた視点。緊張感が増し、キャラクターの細かな動きや表情を捉えることができます。
ファーストパーソンビュー

キャラクターの目線からの視点。最も没入感が高く、FPSゲームの基本となるアングルです。
一度3Dのモデルに置き換えてみるのも一つの方法です。






4. モーションの作成
ある程度画角が決まったら、この画角でモーションを作成していきます。キャラクターの動きは世界との相互作用を表現する重要な要素です。
基本的な移動モーション:
-
直進する

-
左右に曲がる
-
後退する
-
ジャンプする
-
しゃがむ、匍匐前進

これらの基本モーションを組み合わせることで、指示によって世界を自由に探索することができます。
アクションモーション:
キャラクターは歩くだけではなく、さまざまなモーションが可能です。
- 戦闘アクション: 銃を撃つ、リロードする、投擲する、近接攻撃


- 相互作用: ドアを開ける、アイテムを拾う、スイッチを押す

- 乗り物: 車に乗る、運転する、降りる
- 状態表現: 負傷する、回復する、疲労する
- コミュニケーション: 手を振る、指示を出す、合図を送る
モーション作成のポイント:
- 物理法則の考慮: 重力、慣性、反動などをリアルに表現
- 環境との整合性: 地形や障害物との接触を自然に
- キャラクター特性の反映: ペルソナで設定した性格や体格に応じた動き
- 遷移の滑らかさ: モーション間の切り替えを自然に
5. インタラクションとフィードバック
動画モデルによるジオラマをより生き生きとさせるには、環境との相互作用とフィードバックが重要です。
環境の反応:
- 銃を撃てば薬莢が飛ぶ、煙が出る

- 壁に弾が当たれば破片が散る
- 車に乗れば排気ガスが出る
- 足音や効果音の追加
視覚的フィードバック:
- ダメージを受けたときの画面効果
- 照準の表示
- 弾薬残量などのUI要素
- 環境変化(昼夜の変化、天候の変化)
今後の展望と書籍のご紹介
フィジカルAIと世界モデルの発展により、AIは単なる情報処理システムから、物理世界を理解し、相互作用できる存在へと進化しつつあります。
この技術の進展は、ロボティクス、自動運転、製造業、さらにはエンターテインメント分野まで、幅広い産業に革新をもたらす可能性を秘めています。
この記事では、世界モデルを紹介する書籍の一部をご紹介しました。
これまでに書いた記事は本としてまとめておりますので、ぜひ下記のリンクからお読みください。 (すべての情報は無料で公開されています)
皆様の新しい発見へのお手伝いができれば、幸いです。
Beyond LLM:世界モデルが切り拓くフィジカルAIの時代
Discussion