Sora 2 発表関連情報まとめ
tl;dr
- OpenAI が Sora 2 を発表したよ
- Sora を使ってご友人と遊べる iOS アプリが公開されたよ
- Sora 2 を使うには ChatGPT Pro プランの契約が必須だよ
- ただし、今はまだアメリカとカナダでしか使えないよ
- 招待コードがあれば使えるよ
OpenAI から動画生成サービスの Sora 2 が発表されました。想像以上にリソースが多かったのでまとめます。
こちらが発表動画。説明も含めて気になる方はぜひ。最後の動画サンプルは下記ポストにて。こちらをまず最初に見ていただくのが良いかと思います。また、各記事にサンプル動画がたくさんついていますので、いろいろ眺めてみるのもおもしろいです。
秒数は少ないですが、映像も音声もかなり自然になっていることがわかるかと思います。
Sora 2 is here
2024 年 2 月に発表された Sora は動画生成における GPT-1 のような画期的なモデルであった。計算資源を大規模化することで、動作パターンが見えてきたタイミングでもあった。以来、高度なワールドシミュレータを備えたこのモデルの学習に注力。現実世界を理解するモデルの学習において、このシステムは極めて重要。
Sora 2 は動画生成における GPT-3.5 に相当する画期的なモデル。Sora 2 は従来のモデルでは実現が困難であった複雑な表現ができる。ミスそのものもモデルにすることができるほど、物理法則に準拠した動きを生成できる。
制御性においても進化を遂げており、複数ショットにわたる複雑な指示を文字通り実行、一貫した状態を維持することができる。特に、フォトリアルな映画の表現やアニメスタイルの生成に強み。サウンドスケープや音声、効果音を生成することができる。特定の要素の挿入も。
また、Sora 2 を搭載したソーシャルアプリ Sora を iOS でリリース。動画生成や他のユーザのコンテンツのリミックス、Sora フィードで動画を発見、「カメオ機能(cameos)」で自分や友人を動画に出演させることができる。「カメオ機能」を使うには最初にアプリで一度だけ短い録画、録音を行なう。「カメオ機能」により、OpenAI 社内で友人ができたという声も。
課題として挙げられているのが、ドゥーム・スクロール(SNS などでネガティブな情報を見続ける)、依存症、孤立、報酬を最大化するアルゴリズムによるフィードなど。その対策として、ユーザがフィードを制御できる機能、健康状態を確認する機能、クリエイティブを後押しする設計、友人と遊べる設計、ペアレンタルコントロール機能、肖像権の管理機能などを組み込んでいる。
Sora iOS アプリはこちらから。ただし、現状アメリカとカナダのみ。今後他の国にも拡大予定。招待されることで、sora.com から Sora 2 を使うことも。招待される場合は、当面無料で利用可能。ChatGPT Pro プランの方は Sora 2 Pro モデルを sora.com で利用可能。近いうちに Sora アプリでも使えるように。また、Sora 2 は API 経由でも提供予定。
Launching Sora responsibly
Sora 2 と Sora アプリは、最先端の動画生成技術と共同でクリエイトする場所を統合したもの。
中核の設計に安全性を置いており、すべての生成動画に含まれるトラッキング可能なウォーターマーク(C2PA)による識別機能、「カメオ機能」を利用する上での同意に基づく肖像権の使用、若年層のユーザ向けの成人向けコンテンツの出力制御、有害コンテンツのフィルタリング、音声コンテンツにおける模倣などのリクエストに対するブロック、クリエイターからの削除要請への対応、公開範囲の管理機能などを用意。
Sora 2 System Card
Sora 2 の公開に合わせて、システムカードも公開。Sora 2 は動画と音声を生成するモデル。物理法則、フォトリアル、音声と映像の同期、制御性、表現スタイルにおいて改善。sora.com あるいは iOS アプリで利用でき、今後 API でも提供を予定。同意のない他人の肖像利用や、誤解を招く生成などのリスクに対処するため、レッドチームと協力、安全性を検証。アーリーアクセスは招待制。フォトリアルな画像や動画のアップロードを制限。未成年者を題材としたコンテンツには安全対策を実施。
Sora 2
OpenAI のサムアルトマン CEO のブログ記事より。
Sora アプリを公開。Sora 2 のモデルと動画作成・共有・閲覧機能を組み合わせたもの。アイデアから成果物への高速化による創造性のカンブリア爆発が起こり、芸術やエンタメの質が飛躍的にあがる可能性がある。キャラクターの一貫性を保つ「カメオ機能」により、自分や友人を動画内に出演させられ、コミュニケーションに繋がる。
一方で懸念も。依存性や悪用(いじめなど)、最適化されたゴミフィードに吸い込まれるケースを想定。ディープフェイクの防止、違法コンテンツへの対策、ユーザーの健康状態、ウェルビーイングチェックなどの策を織り込み済み。創造性に最適化、ユーザ主導の体験、繋がりを優先、安全性と自由度のバランスを原則としている。特に過去 6 ヶ月を振り返って、Sora を使わなかった場合と比較、生活がより良い方向に変化したと実感できるよう設計。この状態を実現できていない場合は、変更を加えるか、改善できないのであればサービスを畳むことも検討。
The Sora feed philosophy
Sora フィードの設計思想についての記事。Sora フィードの目的はシンプルで、人々が「何が可能か」を知り、創造性を発揮できるよう支援すること。これを実現するために、創造性に最適化、ユーザ主導の体験、繋がりを優先、安全性と自由度のバランスを原則としている。
レコメンドアルゴリズムは、Sora 上のアクティビティ(フォロー、いいね、コメントなど)、ChatGPT の対話履歴、エンゲージメントシグナル(いいね数、コメント数、リミックス数など)、投稿者シグナル(フォロワー数、投稿履歴など)、安全性シグナル(違反コンテンツなど)からパーソナライズ。
生成時点で性的・暴力・自傷・過激思想などの危険コンテンツを防止し、自動ツールと人間レビューで Usage Policy 違反を監視。報告機能も提供。ChatGPT の 4o 画像生成モデルの哲学を継承し、フィードバックで改善を続ける方針。
以上となります。動画生成もこの一年でかなり自然になりましたね。日本でもはやく使えるようになることを期待して、筆を置こうと思います。お読みいただきありがとうございます。
Discussion