🐖

Sora 2プロンプトガイドを読み解いた上で動画を生成してみた

に公開

びーぐるです🐶

巷ではSora 2で生成されたAI動画が話題になっています。
中には著作権侵害などのネガティブな意見もありますが、Sora(Webサイト, iOSアプリ)やSora 2 APIを使えば自然言語から"それっぽい"動画を生成してくれます。
ただし、この方法で意図した動画を生成できるかは運次第であり、いわゆる「ガチャ」のようなものです。

それでは、少しでも狙った動画に近いものを生成するにはどうすればよいのでしょうか?
先日、公式からSora 2のプロンプトガイドが公開されましたので、この内容を踏まえたプロンプトを作成すればよい動画が生成できるはずです。

今回は、このプロンプトガイドを読み解いた上で動画を生成すると、指示通りの動画が作れるのかを試してみました。

更新情報

  • 2025/10/23 投稿しました
  • 2025/11/03 Sora, Sora 2に関する情報を現状に合わせて更新しました

Sora 2について

簡単に触れておきます。

なお、他所でもSora 2に関する記事は多数見受けられますが、導入・使い方や機能などの基本的な内容は以下の記事がわかりやすいです。

https://www.ai-souken.com/article/what-is-openai-sora-2

Sora 2とは?

OpenAIからリリースされた動画生成モデルの名前です。
SoraのWebサイト、もしくはiOSアプリから利用できます。
ChatGPT Pro会員向けに提供されている上位モデル、Sora 2 Proもあります。

Sora(Webサイト, iOSアプリ)とは?

https://sora.chatgpt.com/

Sora 2を利用するためのWebサイトおよびiOSアプリの名前で、いわゆるSNSの形態をとっています。
現在は原則招待制であり、ChatGPTの有料会員になるか、招待コードがないと利用することはできません。
招待制は徐々に解除されつつあるようで、ChatGPT無料会員でも招待コードなしで登録できたという話も聞きます。
(2025年11月3日追記)
あくまで期間限定ということですが、招待コードが撤廃されているようです。

動画の生成と投稿

Chat入力欄にプロンプトを入力することで10秒、または15秒の動画を生成できます。
「犬が草原を走っている動画」など、自然言語で簡単に入力するだけでも、その入力に沿った動画が生成されます。
動画はそのまま投稿することができ、他のユーザからも閲覧可能となります。

現在、Pro会員以外は動画生成は24時間に30本まで可能です。
いわゆるrolling 24 hour window(ローリング24時間)な方式を取っていて、生成した時間から24時間後に再度生成可能となるスロットを30個持っているイメージです。
余談ですが、この方式は他所だとGoogleのJulesで採用されています。
(2025年11月3日追記)
現在、Pro会員は1日あたり100本、それ以外の会員は1日あたり30本の動画生成が可能です。
日本時間の午前9時頃にリセットされる、24時間周期の回数制限方式です。
なお、15秒の動画を生成する場合は10秒動画の2本分の回数を消費し、Pro会員のみ生成できる25秒の動画は4本分の回数を消費します。
利用回数制限を超過した場合、10本あたり4ドルで追加購入できるクレジットも提供されています。

作成する動画の秒数は、チャット欄の設定アイコン - Duration から選ぶことができます。

img0013.png

Sora 2 API

Sora 2にはAPI版も提供されており、アプリケーションやワークフローの中で動画生成を行うことができます。
ただし料金はかなりお高いので、気軽に試すのは難しいかもしれません。
本記事ではSora 2 APIの利用や解説は行いません。

Sora 2 プロンプトガイド

さて、本題のプロンプトガイドを見ていきましょう。
OpenAIが公開しているSora 2のプロンプトガイドはこちら。

https://cookbook.openai.com/examples/sora/sora2_prompting_guide

日本語解釈版の記事をnpakaさんが公開されています。

https://note.com/npaka/n/n754187f14a03

Sora 2 プロンプトへの向き合い方

では、プロンプトガイドを読み解いたうえで、実際に何をプロンプトに記述すべきか見ていきます。

プロンプトの方向性

まずはプロンプトに対してどのように向き合うべきか、最も重要そうな部分を3つだけピックアップしました。

  • プロンプトはストーリーボードを描くように構成する
  • 明確で具体的・具体的な表現を採用し、抽象的、曖昧な表現は避ける
  • 同じプロンプトでも毎回異なる結果が出るため、複数回生成して最良のものを選ぶ。微調整はリミックス機能を利用する

"ショット"を理解する

Sora 2に限らず、映像制作にはショットという概念があります。
ショットとはカメラが一度に撮影した切れ目のない映像の塊のことで、ショットを複数つなぎ合わせたものが動画作品とも言えます。

「コーヒーを淹れて飲むシーン」は、一例として以下のような4つのショットで構成できます。

  1. リビングで電気ケトルが沸いている
  2. お湯を注ぎ、コーヒーを淹れる
  3. カメラをアップにし、一口飲む顔が映る
  4. カメラを戻し、カップをおいてホッと一息つく

実際に見たほうが早いと思いますので、上記の4ショットからなる動画をSora 2で生成してみました。

https://sora.chatgpt.com/p/s_68f9a639827481918bc91feab01cd3b4

ショットに関して重要なことは以下の点です

  • 一つのショットは一つだけ目的を持つ。一つのカメラワーク、一つの明確なアクションで構成する
  • 一つのプロンプトには複数のショットを含むことができる
  • ショットごとに異なる技術的要素(カメラワーク、アングル、レンズなど)を指定できる
  • 動画全体の流れを考慮し、ショット同士の連続性を保つ

プロンプトに記述できる技術的要素

指定できる映像技術的要素をプロンプトガイドからピックアップし、以下の表にまとめました。
「プロフェッショナル向けの用語を利用できる」とあり、基礎知識がないと難しいため、参考リンクを掲載しました。
すべて指定する必要はありません。指定しなかった要素はモデルの裁量に任されます。
ここに挙げた以外の項目を指定しても指示に従う可能性があります。

ショットごと、もしくは動画全体に対して行えます。
動画全体で記述した指示と同じ要素が各ショットでも指定されている場合、基本的にショットごとの指示が優先されます。

要素 内容・要点
概要・目的 動画全体のコンセプトや目的を端的に ドキュメンタリーのように
1960年代の映画風
カメラのフレーミング 用語で指定できる ミディアムクローズアップ
マクロショット
カメラアングル 用語で指定できる ローアングル
アイレベルショット
被写界深度(DOF) 深さを明記 浅いDOF
カメラムーヴメント 1ショットにつき1つの動作 ゆっくりドリーイン
トラッキングアウト
レンズ 焦点距離を数値で指定
レンズ種類を指定
35mmレンズで撮影
アナモルフィックレンズを使用
その他撮影設定 レンズフィルタ, カラーグレーディング, カメラノート...etc 映画風のカラーグレーディング
アイラインを低く保つ
ムード 感情・雰囲気を具体的に メランコリックでノスタルジック
場所・時間帯 舞台と時刻を端的に 都会の駅のホーム
夜明け
光・照明 光源の質・方向・ミックスを具体的に 柔らかな窓からの光にシャープな単一光
主体のアクション 1ショットにつき1つの動作 男が振り向き、見上げる
動作のタイミング 動作をカウントや秒で記述 4歩歩いた後カーテンを引く
セリフ いつ誰が何を言うかを記述 3.50秒 : 近所の人「こんにちは、今日もいい天気ですね」
BGM・効果音 BGMが無音でも効果音は指定できる BGM:雨音
BGM:無音 効果音:風の吹く音
その他映像・ショットを補足する情報 人物・衣装・物体...etc
登場させたいものを具体的に
ネイビーのコート, コーヒーカップ, 通勤客, 発車音
前景: 安全線, 中景: 乗客, 背景: 電車
ネガティブ指定 登場させたくないものを明記 ブランドの看板を登場させない
参照画像 URLを記載、もしくは画像(jpeg,png,webp)を添付 主人公の容姿はhttps://example.com/image.jpgを参考にする
タイムコード 具体的な秒数を指定 0.00 - 3.50 ショット 1
3.50 - 7.50 ショット 2

LLMにプロンプトを作成させて動画を生成する

ここからは実際にプロンプトを構築して、Sora上で動画を作成してみます。
と言いたいところですが、映像作品の計画を立て、ショットに分割し、ショットの指示を細かく決めて記述していくというのはかなり骨の折れる作業です。

ということで、ここはLLMに頼ってみましょう。
このプロンプトガイドは考え方から具体例まで記載されていますので、LLMに解釈させればいい感じにプロンプトを作成してくれそうです。

早速やってみます。
GPT-5に以下のプロンプトを投入します。

https://cookbook.openai.com/examples/sora/sora2_prompting_guide
このURLはSora 2で動画を作成するためのプロンプトガイドとなります。
このガイドには具体的に記述されていませんが、現在のSora 2は15秒の動画を作成することができます。

プロンプトガイドを理解したうえで、Web版のSora 2で動画を作成する適切なプロンプトを構築してください。

題材は猫カフェ
目的は店舗プロモーション
カフェに行きたくなるような可愛らしく楽しい動画

GPT-5で生成されたSora 2用のプロンプトは以下の通りです。

概要:
木漏れ日の入る午後の猫カフェ。ボケ味の中で毛並みのディテールがきらりと光り、スイーツとラテの湯気が立つ。
背景は木とリネン、観葉植物。ロゴや固有名詞の看板は避け、普遍的な“心地よい空間”として描写。

Cinematography:
Camera shot: アイレベルのミディアムワイドでスロードリー→猫の足元のマクロ→お膝でうとうとする猫のミディアム
Lens: 40mm相当、後半は50mm寄り
Lighting + palette: 自然光キー+暖色の実景ランプ、色はアンバー/クリーム/ウォルナットブラウン
Mood: しあわせ・リラックス・上質
Actions(15秒の3ビート):
0–5s: 客席のテーブル越しに、猫がふわっとフレームイン。
5–10s: マクロ気味に足先の“ふみふみ”を見せ、湯気の立つラテとスイーツにフォーカスが移る。
10–15s: 客の膝でとろける猫の表情。スタッフがそっとデザートを置き、猫が小さく瞬き。ラストは軽いドリーアウトで空間全体。
Dialogue / VO(短め):
女性ナレーション:「猫と、甘い午後。あなたの席、空いています。」
Background Sound: 低めの店内アンビエント、カトラリーの小さな触れ音、猫の喉ゴロのみ(音楽の主張は弱め)。

実際に生成した動画はこちら。

https://sora.chatgpt.com/p/s_68f9a10076288191b4cafb4e259cbae5

プロンプトのカスタマイズとレビュー

このプロンプトをカスタマイズするには、ショットごとに設定を記述できるような形式に変更したほうがやりやすいかと思います。
LLMに「ショットごとに分割して」と指示するとよいです。

その後、必要な部分をカスタマイズしていきます。ここは手動で行うのが確実ですが、変更範囲が広すぎる場合はLLMに頼むのも手です。

また、プロンプトのレビューも重要です。
LLMにプロンプトを作成させると、要素を詰め込みすぎ、時間配分が不適切、矛盾した表現が混在するなどの問題が発生しがちです。
カスタマイズが完了した動画を生成したら、一度動画とプロンプトをチェックし、問題がありそうなら要素やショットを間引いて余裕をもたせる、表現を修正するなどの調整を行うとよいでしょう。

カスタマイズ後のプロンプト
概要: 木漏れ日の入る午後の猫カフェ。背景は木とリネン、観葉植物。ロゴや固有名詞の看板は避け、普遍的な“心地よい空間”として描写。 猫は黒猫。カフェの雰囲気に溶け込むように落ち着いた表情。

Shot 1(0–5s)——導入/雰囲気づくり
Scene: 木漏れ日の入る午後の猫カフェ。木とリネン、観葉植物。清潔で上質。固有ロゴや看板は映さない。
Camera shot: アイレベルのミディアムワイド、ゆっくりドリーイン。
Lens & DOF: 40mm相当、浅めの被写界深度で主被写体を浮かせる。
Lighting + palette: 窓からの柔らかな自然光+暖色の実景ランプ。パレットアンカー:アンバー/クリーム/ウォルナットブラウン。
Action beats: テーブル越しに猫がふわっとフレームイン→カップの湯気が立ち上り、猫が香りをくんくん。
Mood: しあわせ・リラックス・上質。 Purpose: 居心地の良さと質感を一瞬で伝える。

Shot 2(5–8.5s)——“ふみふみ”の可愛さ
Scene: 猫の前足アップ(マクロ寄り)、背景にラテとスイーツのボケ。
Camera shot: 固定
Lens & DOF: 50mm相当のクローズアップ、浅めDOF(足先はシャープ、背景は柔らかいボケ)。
Lighting + palette: Shot 1 と同じ光源・色調を継続(連続性重視)。パレットアンカー:アンバー/クリーム/ウォルナットブラウン。
Action beats: 足先が2回ふみふみ→小さく停止。奥でラテの湯気がふわっと流れる。
Purpose: “触れたくなる可愛さ”をフォーカルモーメントで固定。

Shot 3(8.5–15s)——来店イメージの完成
Scene: 人の膝の上でうとうとする猫。背景にカフェの温かい空気感。
Camera shot: ゆるいドリーアウトで空間を少し広げる。
Lens & DOF: 50mm前後のミディアム。瞳とヒゲはシャープ、背景はやわらかく。
Lighting + palette: Shot 1と同一の照明設計。パレットアンカー:アンバー/クリーム/ウォルナットブラウン。
Action beats: スタッフが静かにデザートをテーブルへ置く→猫がゆっくり瞬き→にゃーと鳴く
Purpose: “ここで過ごしたい”気持ちを決定づける、やさしい余韻。
Dialogue / VO(短く自然に) 女性ナレーション(やわらかく):「猫と、甘い午後。あなたの席、あいています。」

Background Sound(全体に共通) 低めの店内アンビエント、カトラリーの小さな触れ音。BGMは控えめにして環境音を活かす

生成した動画はこちらです。

https://sora.chatgpt.com/p/s_68f9cbfffd34819183c67be191958fe6

私の調整力がイマイチなのでクオリティは上がっていませんが、猫を黒猫に変更する、場面を微調整するなどのカスタマイズはできました。

プロンプトテンプレートの提案

LLMは毎回形式が異なったプロンプトを出力します。

そこで、出力テンプレートを与えてLLMが生成するプロンプトの形式を安定させる方法があります。
狙った形式で出力されるため、自分の好みに合わせた形でプロンプトを作れるようになります。

私はこのようなテンプレートを使っていました。

<<動画全体に関する指示>>
(概要・目的)
(指示内容)

(タイムコード) <<ショット 1>>
(概要・目的)
(指示内容)

(タイムコード) <<ショット 2>>
(概要・目的)
(指示内容)

(タイムコード) <<ショット 3>>
(概要・目的)
(指示内容)

…

(タイムコード) <<ショット N>>
(概要・目的)
(指示内容)

色々試してみて、自分が使いやすいテンプレートを模索するのが良いと思います。

まとめ

Sora 2のプロンプトガイドを読み解き、実際に動画を生成してみました。

LLMにプロンプトガイドを理解させた上でSora 2用のプロンプトのドラフトを生成させ、それをカスタマイズすることで、より意図した動画に近づけることができました。
すべてをLLMに任せる調整には限界があり、細かい部分は人力での調整を行ったほうが確実です。
プロンプトガイドの知識があればどの要素を調整すべきかの判断しやすくなりますので、実際に理解しておくことの重要性が実感できました。
とはいえ、完璧にプロンプトを組んでもモデルの特性上、どうしても運任せになる部分は残ります。
従って、プロンプトガイドにあるとおり"Most importantly, be prepared to iterate" (最も重要なのは、繰り返し試す心構えをすること)なのです。

本記事で学んだこと、特に映像撮影技術に関することやプロンプトの構築に関しては、他の動画生成モデルを利用する際にも応用できるはずです。
余裕があれば、今後他の新しいモデルが出てきた際に試してみて、記事にしてみようかと思います。

GitHubで編集を提案

Discussion