📖

re:Invent 2025: Amazon Nova 2 Omniのマルチモーダル機能と性能評価

に公開

はじめに

海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!

re:Invent 2025 の書き起こし記事については、こちらの Spreadsheet に情報をまとめています。合わせてご確認ください

📖 re:Invent 2025: AWS re:Invent 2025 - [NEW LAUNCH] Amazon Nova 2 Omni: A new frontier in multimodal AI (AIM3324)

この動画では、Amazon Nova 2 Omniを中心としたマルチモーダルAIの最新機能が紹介されています。Nova 2 Omniは、テキスト、画像、動画、音声を統合的に理解し、テキストと画像を生成できる業界初のハイブリッド推論モデルです。最大100万トークンのコンテキストウィンドウをサポートし、200以上の言語に対応しています。ドキュメント理解、音声文字起こし、動画解析において、Gemini 2.5 FlashやGPT-4o Miniと競合する高い性能を示し、MMAUリーダーボードで総合2位を獲得しています。画像生成では、Nova Canvasと比較して大幅に改善され、特に日本語テキストのレンダリングや複雑な編集操作に優れています。Dentsu Digitalの事例では、Nova Omniを活用した動画クリエイティブの予測精度が相関値0.88を達成し、わずか7日間で7つのアプリケーションを開発した実績が報告されています。

https://www.youtube.com/watch?v=-nMiqOgQbHc
※ こちらは既存の講演の内容を最大限維持しつつ自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますのでご留意下さい。

本編

Thumbnail 0

Amazon Nova 2 Omniセッションの開幕とNovaファミリーの全体像

皆さん、こんにちは。午後のお時間にお越しいただきありがとうございます。本日は、マルチモーダルAIの新たなフロンティアであるAmazon Nova 2 Omniについてのセッションです。私と一緒に2人の共同プレゼンターが登壇します。Amazon Novaモデルの開発に携わっているApplied ScienceのDirectorであるAshwin Swaminathan、そしてDentsu DigitalのChief AI OfficerであるYamamotoさんです。

Thumbnail 40

本日のアジェンダですが、まずAmazon Novaファミリーのモデル全体についてご紹介します。それから、昨日Matt Garmanが基調講演で発表したAmazon Nova 2ファミリーについて触れていきます。そしてAmazon Nova、特にマルチモーダル理解とマルチモーダル生成というマルチモーダルワークフローに最適化されたOmniモデルについて深く掘り下げていきます。また、皆さんのビジネスで作成できるものについてのアイデアをお伝えするために、いくつかの例やデモもご紹介します。さらに、これらのモデルの性能を業界最高のモデルと比較してお話しします。そして最後に、Yamotoさんから、Nova Omniを使ってDentsu Digitalがどのようにビジネスを変革し、顧客を支援しているかについてお話しいただきます。

Thumbnail 90

私たちは昨年のre:InventでAmazon Nova foundationモデルファミリーをローンチしました。実は私はこの会場にいたんです。私たちは一連のモデルをローンチしました。主要なNovaモデルは2つのカテゴリーでローンチされました。1つはNova understandingモデルと呼んでいるもので、テキスト、画像、動画を入力として受け取り、そこからメタデータを抽出したり、コンテンツを要約したり、質問応答を行ってテキストを生成することができます。これがunderstandingファミリーのモデルで、Micro、Lite、Proで利用可能です。その後、このカテゴリーで最高の性能を持つ最大のモデルであるPremierをローンチしました。また、Nova Canvasという画像生成モデルと、Nova Reelという動画生成モデルもローンチしました。その後、カスタマーサポートコールなどのリアルタイム会話AI アプリケーション向けのspeech-to-speechモデルをローンチしました。これがAmazon Nova Sonicです。ごく最近、先月、業界初のネイティブマルチモーダル埋め込みモデルをローンチしました。これはセマンティック検索やエージェンティックRAGアプリケーションに最適で、特にドキュメント、画像、動画、音声、テキストなどの非構造化データが大量にある場合に有効です。私たちはこの分野のパイオニアであり、はるかに低いレイテンシーとコスト特性で最高の性能を提供し、すべてを統合して実現する業界初のモデルを提供しています。

Thumbnail 190

Thumbnail 200

Thumbnail 210

Amazon Nova 2ファミリーの4つの新モデル:Lite、Pro、Omni、Sonicの特徴

Novaはすでに数万の企業やスタートアップのお客様に利用されており、その一部の名前がここに掲載されています。 それでは、昨日ローンチされた内容について触れていきます。 私たちはAmazon Nova 2ファミリーの4つのモデルをご紹介します。まずNova 2 Liteですが、これは日常的なワークロード向けの高速でコスト効率の良い推論モデルです。これは私たちの最初の推論モデルであり、ハイブリッド推論モデルです。つまり、開発者が推論を有効にするかどうか、また特定のタスクに対してどのレベルの推論を使用するかをコントロールできるということです。例えば、タスクがドキュメント理解を含み、抽出された値が正しいかどうかについて何らかの推論が必要な場合、ある程度のレベルの思考や推論を使いたいと思うでしょう。日常的なタスクの場合は、その推論を無効にすることができ、モデルはそのまま結果を提供します。これにより、より少ないトークンを使用し、より速い結果を生成します。

Thumbnail 260

それから、プレビューでNova 2 Proもローンチしました。これはNova 1ファミリーと似ていますが、より高いティアで、異なるレイテンシーとコスト特性でより高い性能を提供します。これは非常に複雑なタスクのための最もインテリジェントな推論モデルです。コーディングタスク、複雑なエージェント、またはマルチエージェントシナリオを考えてみてください。そのような場合にNova 2 Proを使いたいと思うでしょう。

Thumbnail 290

そして、本日お話しする3つ目のモデルは、プレビューでローンチしたNova 2 Omniです。これは、マルチモーダル推論と画像生成のための統合モデルです。

私たちは、将来のモデルは完全にマルチモーダルになると考えています。それは人間の対話方法と同じですよね。話し言葉、視覚情報、そして書かれたテキストを通じて。すべてのプロバイダーがその方向に進んでいくでしょう。これは、オーディオや音声を含むあらゆるモダリティを理解できる初めてのモデルであり、Bedrock上で利用可能なモデルの中では初めてのものです。同時に、同じモデル内で高品質な画像も生成できます。また、あらゆるモダリティにわたって推論し、単一のモデルで画像を生成できる業界初の推論モデルでもあります。

Thumbnail 350

Thumbnail 370

Amazon Nova Sonicの第2世代として、Nova 2 Sonicがあります。これは第1世代と比較してパフォーマンスが向上し、より多くの言語をサポートし、会話が第1世代と比べてより自然に感じられます。 このプレゼンテーションでは、Omniモデルについてより深く掘り下げていきます。これは、これら4つのモデルすべての機能の簡単な概要です。

Thumbnail 380

これら4つのモデルはすべて、最大100万入力トークンの大規模なコンテキストウィンドウをサポートしています。入力テキストについては200以上の言語をサポートしています。ProとOmniはオーディオも理解できるため、オーディオや音声についても最大10言語を理解できます。Sonicについてもう1つ言えることは、より多くの音声を自然にサポートするようになったことです。複数の言語について、ワークフローに合わせて異なる男性または女性の音声を選択できます。

Thumbnail 420

Thumbnail 430

Nova 2 Omniの主要機能:マルチモーダル理解、推論、画像生成の統合

Omniは、先ほど申し上げたように、要約すると、あらゆるモダリティを入力として受け取り、テキストと画像を生成できます。 より自然に感じられるのは、先ほど述べたように、人間の対話方法と同じだからです。モデルがすべてのコンテンツを同じ空間で理解してからテキストや画像を生成することで、タスク固有の複数の専用モデルの組み合わせよりも高品質な出力が得られます。また、複数のモデルと複数のシステムを配置した複雑なパイプラインを作成する心配をする必要がなく、単一のモデルでそれを統合できるため、構築コストやメンテナンスコストを削減し、市場投入までの時間を短縮できます。

Thumbnail 470

これらがAmazon Nova 2 Omniが提供する主な特性です。先ほど申し上げたように、これはハイブリッド推論モデルで、開発者が推論のレベルをコントロールしたり、推論を有効にするかどうかを選択できるようになっています。このモデルは指示に従うこと、ツール呼び出し、そしてシンプルなテキストベースの自然言語タスク、例えばNLPタスク、感情分析、分類といったものに優れています。マルチモーダル認識において最先端であり、このモデルはあらゆるマルチモーダルタスクに高度に最適化されています。つまり、入力ドキュメントの理解、入力画像の理解、動画の理解、そして音声の理解です。

クロスモーダル推論という新機能は、現在市場に出ている最高のモデルと比較して、このモデルが本当に優れている点であり、これから私たちがすでにテクニカルレポートで公開している数値をいくつかお見せします。音声理解については、先ほど申し上げたように、Nova 2 ProとOmniはBedrockで音声理解をサポートする最初のモデルです。つまり、音声の文字起こしができます。マルチスピーカーダイアライゼーション、つまりどの話者がどの時点で話しているかを理解することができます。複数の言語をサポートし、後ほど詳しく説明するさまざまなタイプのタスクをサポートしています。

このモデルは、はるかに高品質な画像生成と自然言語ベースの画像編集をサポートしています。テキストLLMに支えられることで、画像内にレンダリングされるテキストのはるかに高い品質を生成できます。特に画像内の長いテキストは常に課題でしたし、Canvasでもその課題に直面していました。このモデルでは、前世代の画像生成モデルで抱えていた残りのギャップをすべて修正しようと試みており、このモデルは画像生成において非常に魅力的なものになるはずです。

Thumbnail 610

Thumbnail 680

それではパフォーマンスを見てみましょう。このチャートはArtificial Analysisに基づいており、私たちではなく第三者によって行われたもので、彼らの総合的なArtificial Analysis Indexを示しています。これは10以上のベンチマークにわたるパフォーマンスを測定し、トップクラスのモデルがどのように機能するかを示しています。58という数値は、指示に従うこと、ツール呼び出し、エージェント的なコーディングなど、さまざまなカテゴリーで意味のある多数の異なるベンチマークから統合された数値です。ご覧のとおり、Gemini 2.5 FlashやGPT-4o Miniタイプのモデルと競合するこの階層において、このモデルは非常に競争力があり、リーダーボードで非常に高い位置にあります。左側にあるものはより高い階層です。それらはGemini 2.5 Proで、Nova 2 Proカテゴリーに似ているため、そこでは比較していません。これらは言語理解、つまり知識、推論、指示に従うこと、そしてツール呼び出しに関するいくつかの数値で、モデルがどれだけ優れているかをテストするために重要であり、またエージェント的なアプリケーションのためのツール呼び出しにも重要です。これらが重要な要素であり、ご覧のとおり、Nova 2 Omniはこれらすべての数値においても非常に競争力があります。

Thumbnail 710

ドキュメント理解における高精度なOCRと重要情報抽出の実現

それでは、いくつかのユースケースを見てみましょう。特にマルチモーダルのユースケースで、このモデルはNova 1ファミリーの基盤モデルから大きく改善されており、また他のモデルと比較しても非常に競争力があります。お客様から聞いている主なユースケースはドキュメント理解です。ほぼすべての企業がドキュメントを持っており、レイアウトの観点から非常に複雑な性質のドキュメントもあります。手書きのドキュメント、手書きとタイプされた言語が異なる言語で混在しているものなどがあり、ドキュメント理解は非常に複雑で困難な問題です。このモデルが行うことは、前世代のモデルと比較してはるかに高い精度を提供することであり、パブリックベンチマークでの測定値に関する数値もお見せして、私たちがどこで優れているかを示します。

Thumbnail 800

私たちがこれで修正しようとした主要なポイントのいくつかは、OCR、つまり文字認識と、重要情報の抽出です。PDFレポートやレシートがある場合、モデルがそこからすべての情報をどれだけ正確に抽出できるかということです。場合によっては、組み込みツールを使って検証を行い、そこに記載されているコンテンツの不整合を明らかにすることもできます。これはOCRの例で、左側の画像は非常に非伝統的なタイプのドキュメントの組み合わせと考えていただけます。テキストがあり、さまざまな領域に画像があり、これはすべての企業が持っている基本的なユースケースの1つです。つまり、ここからどれだけ正確に情報を抽出し、OCRを実行し、このテキストを作成できるかということです。また、モデルにJSONやXMLなどの構造化された形式で出力を生成するように指示することもでき、それを後続の処理でさまざまなツールを呼び出す際に使用できます。右側をご覧いただくとわかるように、すべての情報を構造化された方法で抽出しています。ここではJSONとして表示されていませんが、それがモデルが正確に実行できることです。

Thumbnail 860

Thumbnail 900

これも左側の非常に複雑なレイアウトのドキュメントですが、モデルはここから非常に正確に情報を抽出できています。先ほど申し上げたように、特定の領域の不整合を探し、計算を行うようにモデルにプロンプトを与えることができます。つまり、モデルは組み込みツール、例えば簡単な数学計算などができるcode interpreterを使用して、ドキュメントに提示されている情報が正しいかどうか、そしてどこに不整合があるかを教えてくれます。

Thumbnail 910

音声理解の新機能:文字起こし、話者分離、MMAUリーダーボードでの高評価

では、このモデルの新機能である音声理解を見ていきましょう。私たちはASRや音声認識タイプのユースケースのソリューションの1つとしてAWS Transcribeを持っています。このモデルを使用すると、音声を文字起こしでき、音声ファイルで話された内容を要約でき、質問応答ができ、そしてすべてを実行してツールを呼び出すこともできます。先ほど申し上げたように、最大3話者の話者分離をサポートしており、どの話者がオーディオのどの部分を話しているかを分離できます。これは非常に高性能なモデルです。

MMAUリーダーボード、つまりMassive Multitask Audio Understanding and Reasoningリーダーボードでは、私たちは総合2位で、この分野でGoogleやOpenAIが提供するモデルよりもはるかに先を行っています。これは音声、サウンドスケープ、つまり非音声オーディオ、そして音楽に対する精度を測定します。つまり、モデルはさまざまなタイプのオーディオ入力を理解できます。

Thumbnail 990

Thumbnail 1000

Thumbnail 1020

どのように機能するか見てみましょう。このケースでは、CEOのAndy Jassyが行ったQ3決算説明会からの短いスニペットがあります。私たちはこの入力を提供したとき、またはモデルに求めるさまざまなタイプのタスクで、モデルがどのように動作するかを確認するためにテストしました。このケースでは、これは単なる内部ツールで、このファイルをアップロードして、非常にシンプルに単純な文字起こしから始めます。その場合、モデルが単語を見逃していないか確認します。モデルが入力オーディオで話されていない単語を誤って引用していないか確認します。ここでは読みにくいですが、私たち自身で分析を行い、テストを行いました。そして結果は非常に正確でした。

Thumbnail 1040

Thumbnail 1060

そして、「主なポイントは何ですか」といったフォローアップの質問をすることができます。すると、このオーディオファイルに含まれていた主要な項目を箇条書きで提供してくれます。そしてさらに、「Andyが言及した主な成果をまとめてください」といったフォローアップの質問もできます。つまり、あらゆる種類のオーディオファイルを分析して、このような作業をはるかに高い精度で実行できるわけです。そして、これも要約の一つです。この結果については、後ほどマルチモーダル認識のまとめについてお話しする際に共有します。

画像・動画理解の深化:物体検出、時間的理解、クロスモーダル推論のベンチマーク結果

それでは、画像と動画の理解についてお話しするために、共同プレゼンターのAshwinにバトンタッチしたいと思います。ありがとう、Rohit。Rohitが述べたように、Nova 2 Omniモデルの一環として私たちが行った作業について少しお話しします。画像と動画の理解のユースケースに焦点を当てたものと、Omniが画像生成の側面をどのように解決できるかについての作業についても説明します。

Thumbnail 1120

画像と動画の理解のユースケースの大まかなカテゴリーを見ると、3つの特定の領域に大別できます。1つ目は認識と物体検出です。シーンがあって、そのシーン内にどんな物体があるかを理解し、バウンディングボックスを作成したいという場合です。2つ目は質問と回答です。画像に質問をして、画像の中で何が起きているかを把握したいという場合です。そして3つ目は時間的理解です。画像から動画に移行する際、シーンの時間的な側面を捉えて、特定の動画について質問できるようにしたい場合です。例えば、動画内で特定のイベントがいつ起こったか、何かがいつ現れたかといったことで、一般的に動画理解タスクで必要とされるものです。

Thumbnail 1170

では、いくつかの例を見ていきましょう。これはシーンの例です。複雑なシーンです。多くの要素が含まれています。「シーン内の植物、クッション、テーブル、テレビの数を検出してください」というシンプルな質問をした場合、人間として画像を見ていると、すぐに目に飛び込んでくるものがあります。例えば、右側のソファのすぐ隣にある大きな鉢植えの植物です。そして周りを見渡すと、シーンのあちこちに複数の小さな植物を見つけることができます。

Thumbnail 1200

モデルが何を生成したか見てみましょう。 モデルは、シーンの後ろにある大きな鉢植えの植物だけでなく、空間全体にあるすべての小さな植物も検出しました。

これには、棚の中の植物、センターテーブルの上の植物、そしてテレビの横にある植物が含まれています。また、個々のクッションもすべて検出し、これらのクッションの境界ボックスを抽出しました。さらに、プロンプトで指定されたテレビについても同様です。

2つ目に注目していただきたいのは、境界ボックスの位置の精度と、オブジェクトの周りにどれだけぴったりとフィットしているかという点です。これらは、Amazon Nova 2 Omniを構築する際に最適化した側面です。私たちは、非常に高品質な出力を生成すると同時に、非常に正確な境界ボックスを生成することで、自動化、リアルタイムの意思決定、ロボティクス、その他さまざまなユースケースなど、さまざまな種類のアプリケーションを実現できるようにしたいと考えていました。これらのシナリオで本当にうまく機能するように、モデルを最適化したかったのです。

Thumbnail 1260

では、認識と質問応答を見てみましょう。このシーンを見ると、いくつかの質問をすることができます。画面には何チームいますか?これは何のイベントですか?彼らは何をプレーしていますか?走者はバトンを渡しましたか?このような画像をNova Omniモデルに渡すと、これは3チーム、つまりGreat Britain、Switzerland、Belgiumによるリレー競走であると判断します。また、バトンの位置を検出し、誰がバトンを渡したか、誰がまだ渡していないか、そして誰がレースで1位になったかを識別することもできます。

Thumbnail 1320

このシーン全体の理解は、さまざまな種類のアプリケーションをサポートする上で非常に強力なものとなります。これは、このような複雑な理解のユースケースをどのようにサポートできるかについて、皆さんのようなお客様から聞いてきたことです。これにより、人間による自動化の部分を削減し、皆さんのワークロードに対する AIの全体的なパワーを向上させることができます。

Thumbnail 1340

3つ目の例は、時間的およびマルチモーダルアテンションについてです。フレーム間で推論し、シーン内の特定のイベントを識別するための長時間イベント検出をサポートしたい場合、例を見てみましょう。 ここでのプロンプトは、この特定のプロンプトに対してビデオ内のすべてのセグメントを特定できるようにすることです。プロンプトは「ボートの上に立っている男性」で、非常に構造化された出力形式で結果を生成するようモデルに求めています。これを見ていく中で、正確なタイムスタンプを確認していただけるように、ちょっと一時停止します。

Thumbnail 1360

Thumbnail 1370

Thumbnail 1380

Thumbnail 1390

これを見ていくと、さまざまな種類の風景やシーンが表示されますが、12秒から14秒あたりで、ボートの上に立っている男性が見えます。 ビデオを進めていくと、男性は今度は歩いていますが、もうボートの横に立っていないので、まだ人物は見えているものの、モデルの出力としてはカウントされません。 モデルは、お客様が求めているプロンプトの種類を正確に理解し、推論することができ、 複雑なタスクを解決できる形で出力を提供します。

Thumbnail 1400

Thumbnail 1410

このケースでは、ボートの横に立っている男性というのは、単に歩いている人や 立っている人だけではなく、オブジェクト間の関係性や、これらのオブジェクトがどのように組み合わさってお客様が求めている質問に答えていくかということも含まれています。 これが、Amazon Nova 2 Omniモデルがサポートできる複雑なユースケースの種類です。

Thumbnail 1420

パフォーマンスに関しては、Rohitが述べたように、 私たちは幅広いベンチマークに対してモデルを評価してきました。Amazon Scienceのウェブサイトに非常に詳細な技術レポートを公開していますので、皆さんぜひそちらにアクセスして、その技術レポートにあるすべてのベンチマークをご覧いただければと思います。ここでは、私たちが検証したベンチマークのいくつかを指摘しているだけです。

ビデオ理解の面では、Video MMEベンチマークを含む幅広いユースケースにわたって広範囲にベンチマークを行ってきました。Video MMEベンチマークが興味深いのは、一般的なビデオ理解のユースケースがあるだけでなく、クロスモーダル理解も含まれている点です。ビデオと音声を一緒に入力したときにビデオがどのようなパフォーマンスを発揮するか、そしてそれによってどのようなパフォーマンス向上があるかを見ることができます。ビデオと音声の組み合わせとクロスモーダル理解により、同じカテゴリーにある他のモデルよりも私たちのパフォーマンスははるかに優れていることがわかります。

ドキュメント理解については、OCRベースのベンチマークであるOCR Benchがあります。こちらも、Nova OmniモデルはState of the artを超えており、この特定のベンチマークの幅広いユースケースにおいて非常に良い結果を提供しています。音声理解については、Rohitが述べたように、MMAUのような人気のあるベンチマークで、私たちはリーダーボードで2位となっています。

全体的に見て、幅広いタスクにおいて非常に優れたパフォーマンスを確認いただけます。Omniモデルを構築する際に私たちが行ったもう一つのことは、Nova 1モデルに対して皆さんからいただいたすべてのフィードバックから学んだということです。動画理解のユースケースを試していただく中で、モデルがうまく機能したケースと機能しなかったケースについて、多くのフィードバックをいただきました。

Thumbnail 1570

CMUとの協力により、Mavericksという新しいベンチマークを作成しました。このベンチマークも公開されています。また、この1年間で皆さんからいただいたすべてのフィードバックに基づいて、実際のお客様のユースケースに基づいてモデルを評価しました。このMavericksベンチマークにおいても、パフォーマンスの面でトップクラスに位置しています。また、このベンチマークは、音声と組み合わせた動画、またはオーディオと組み合わせた動画が、どのように連携して実世界のお客様のユースケースに対して非常に高品質な結果を提供できるかを評価するのに役立っています。これは、私たちがベンチマーキングで行った取り組みの一環として、ぜひ皆さんにもチェックしていただきたいものです。

Thumbnail 1620

高品質な画像生成と9種類の編集操作:テキストレンダリングから複雑な編集まで

それでは、画像生成について少しお話ししましょう。Omniのユニークな点は、テキスト、画像、動画、オーディオ、音声といったあらゆる種類のコンテンツを理解するだけでなく、画像を生成することもできるということです。これにより、これまで複数のモデルを使用していたような複雑なユースケースを実現できるようになります。Nova Omniモデルは、人物、テキストレンダリング、そして空間理解といった高品質でリアルな画像を生成できます。コンテンツや画像を理解する優れた理解バックボーンを持っているため、そのバックボーンを使用してより高品質な画像を生成し、より高品質な編集タスクを実行することができます。これらの例でそれをご覧いただけます。

まず、これらはNova 2 Omniモデルで作成した画像の例です。これはテキストから画像への部分です。テキストプロンプトを与えると、さまざまな種類の画像を生成します。このスライドでそれらの画像のいくつかをご覧いただけます。Rohitが先ほど述べていたように、ビジュアルテキストレンダリングについても多くの最適化を行いました。モデルが正しいテキスト出力を生成することをしっかりと実現したいと考えています。これは、今日存在するほとんどの画像生成モデルにとって本当に難しい問題です。

Thumbnail 1660

モデルの評価方法としては、勝率を見ています。勝率の計算方法ですが、これも昨年Nova Canvasモデルに対してお客様である皆さんからいただいたすべてのフィードバックに基づいて、プロンプトのデータセットをキュレーションし、市場に出ている他の競合モデルと比較してブラインドABテストを実施しました。これはブラインドABテストです。アノテーターは、どの画像がNova Omniに対応し、どの画像が競合に対応しているかを知らず、それぞれの画像を見て、勝ち、引き分け、または負けの評価を提供しました。そして、すべてのアノテーション全体で結果を集計しました。人間による評価の正確なプロセスと手順は、私たちのテクニカルレポートにも記載されています。

次に勝率を計算しました。勝率というのは基本的に、勝ち率にタイの半分を加えたものです。つまり、私たちのモデルがどれだけ良いパフォーマンスを発揮しているかを見ているわけで、これは本質的に50を超えるものは何でも、私たちのモデルが他の競合モデルと同等かそれ以上であることを示す定量化を提供してくれます。図を見ていただくとわかるように、Nova OmniはNova Canvasよりも大幅に優れたパフォーマンスを発揮しています。つまり、昨年ローンチした前世代のモデルと比較して、パフォーマンスの面でステップ関数的な改善となっています。また、Flux Kontext MaxやFlux Kontext Proのようなモデルを大幅に上回っており、GPT-image 1やGemini系のモデルに匹敵するものとなっています。

Thumbnail 1740

Thumbnail 1760

これらは特定のカテゴリーを詳しく見た、より詳細な結果です。私たちが重点的に取り組んだ特定の領域は、人物のレンダリングと視覚的なテキストやシーンのレンダリングの改善です。これは、画像生成タスクの一環として、Nova CanvasからNova Omniに移行する際に改善した領域でもあります。 ここに複雑な例が一つあります。プロンプトは、歩行者の群衆が全員カメラを見ているパリの画像です。ここでは、人々のグループを生成しようとしているだけでなく、これは画像生成モデルにとって本当に難しいことなんです。なぜなら、シーン全体にたくさんの小さな顔を生成することになるからです。さらに、プロンプトは人々がカメラを見ていることを求めています。

Thumbnail 1800

ここでも、Nova Omniモデルはユーザーの意図を理解し、プロンプトでユーザーが求めているものを正確に表現する画像を生成することができています。 たくさんの人がいるシーンを見ると、そのうちの約90%が実際にカメラを見ていることがわかります。これは今日、他の競合モデルのほとんどもできないことです。

先ほど申し上げたように、理解と生成を統合したモデルを持つことの利点は、モデルの理解コンポーネントが生成側から学習でき、モデルの生成コンポーネントが理解側から学習できることです。これは編集のようなタスクで役立ちます。Nova 2 Omniモデルは、新しいオブジェクトの追加、オブジェクトの変更、特定のオブジェクトに関する情報の抽出、置き換え、削除、背景の変更、スタイル転送など、9種類の異なる編集操作をサポートできます。では、サポートしている操作の種類を理解していただけるよう、いくつかの例を見ていきます。

Thumbnail 1840

これらはすべてテキストプロンプトだけで行えます。入力画像とテキストプロンプトを提供するだけで、モデルはユーザーの意図を理解し、さまざまな種類の編集タスクを支援できます。ここに追加操作の例があります。画像の右側を向いた木製のベンチを追加したい場合です。モデルはベンチを生成しましたが、シーンのスタイルとレイアウトも理解しました。ベンチを作成する際、シーンやシーンレイアウトとうまく調和するよう、画像の正確なスタイルでベンチを作成しました。

Thumbnail 1880

Thumbnail 1900

こちらは、左側の画像にドアの番号を追加したい場合の別の例です。モデルは意図を理解し、ドアの正しい位置に番号が入った画像を生成します。 こちらは変更の例です。このケースでは、プロンプトが自転車の色を赤に変更するよう求めています。モデルは自転車の位置を理解し、その領域をセグメント化して、該当する箇所のみを赤色に変換することができます。

Thumbnail 1920

Thumbnail 1930

こちらはフロスティングの色を別の色に変更する別の例です。ここでもモデルはあなたの意図を理解し、変更を加えることができます。 これはシーンを変更する例で、雪景色の背景をより砂のような背景に変更しています。情報を抽出する場合、例えばAmazon.comでドレスを着た人々の画像があるとします。そのドレスを抽出して表示し、ユーザーが購入の意思決定ができるように、この情報を非常に正確に表現したいわけです。

Thumbnail 1950

これもモデルが得意とする領域です。オブジェクトを置き換える場合、ここで興味深いのは、ユーザーのプロンプトがヘアスタイルを変更しないことに特に焦点を当てている点です。帽子を変更する際、ヘアスタイルも変更してしまわないようにして、シーン全体の表現に影響を与えないようにしたいわけです。モデルはその意図を理解し、髪には触れず帽子だけに触れる画像を生成できるので、それらの画像を生成して帽子だけを更新します。

Thumbnail 1990

こちらはシーンからホッキョクグマを削除し、ユーザーの手から携帯電話を削除する削除の例です。これは複雑な編集操作の例でもあり、複数のプロンプトがあります。ユーザーの手から携帯電話を削除するだけでなく、セーターの色をピンクから青に変更しています。両方の側面を理解し、記述されたプロンプトに従った画像を生成します。

Thumbnail 2020

こちらは背景変更、スタイル転送、モーション変更の例です。これはシーンをどのように表現するかについてで、例えば同じ人物が異なる種類の表情でどのように見えるか、そしてその人物の外見や属性、服装を変えることなく、リアルに見える表情を作成することです。これも重要な側面となります。

Thumbnail 2040

これらは、帽子を取り除くだけでなく、その人が着ているドレスの色も変更するといったハイブリッドな変更です。これらは、Nova 2 Omniモデルを構築する際に評価とテストを行ってきた複雑なシーンの種類です。タスクを理解する能力を持つことで、生成面の全体的な品質も向上させることができます。

Thumbnail 2070

私たちのモデルを画像編集ベンチマークに対して評価しました。このグラフはモデルのパフォーマンスを示しています。先ほど説明したように、画像編集タスクにおいて、私たちはFluxモデルよりも優れており、GPT-4o、GPT-4.1、そしてGeminiモデルとも同等のパフォーマンスを発揮しています。ここで例を見ていきましょう。Novaモデルでできるさまざまな種類の編集操作があります。

Thumbnail 2100

明るいスカンジナビアスタイルを白い色に変換したいと思います。ミュートされたミニマリスティックなアートを追加します。

Thumbnail 2110

Thumbnail 2120

Thumbnail 2130

Thumbnail 2140

Thumbnail 2150

Thumbnail 2160

つまり、自分の環境を再配置して作成するために使用できます。もしあなたが不動産管理者であれば、同様の種類のシナリオやワークロードの同様のユースケースに拡張することができます。そして、広告を作成したい場合は、オブジェクトがあれば、キャプションを作成し、オブジェクトをさまざまな環境に配置して、ワークロード用のさまざまな種類の広告マーケティングアセットを作成することもできます。

現在、ベータプログラムの一環として、多くのお客様がモデルを使用しているのを目にしています。Monksはそのような企業の一つです。Omniモデルの利点の一つは、理解と生成の能力とパワーを考えると、同じタスクを解決するために複数のモデルを持つ必要がないということです。モデル自体がタスクを理解して表現し、コンテンツの生成も支援できるため、より強力になります。そのため、企業は非常に強力で複雑なワークフローを持つ必要がなく、Omniモデルのパワーによって多くのワークフローを簡素化できることを実感しています。

Thumbnail 2220

Dentsu DigitalによるNova Omni活用事例:動画クリエイティブの予測と生成

それでは、Yamamoto-sanに引き継ぎます。彼はDentsuがどのようにモデルを使用しているか、そのユースケースとワークロードについて少しお話しします。はい、ありがとうございます。こんにちは、こんにちは、本当にありがとうございます。ご紹介いただきありがとうございます、そしてこの素晴らしい機会をいただきありがとうございます。自己紹介させてください。私はYamamoto Satoruと申しまして、Dentsu DigitalのChief AI Officerを務めており、Dentsu JapanのDeputy Chief AI Officerも兼任する予定です。

Thumbnail 2230

Thumbnail 2260

お礼を申し上げたいと思います。AWSからのすべてのサポートに本当に感謝しています。re:InventやSummit、そしてCannes Lionsなど、AWSに関連する多くのイベントでプレゼンテーションする機会をたくさんいただいています。ですので、私はAWSの大ファンなんです。今日は、AWS AIがいかにパワフルか、特にAmazon Nova Omniについて、皆さんにお伝えしたいと思います。ですが、本題に入る前に、私たちの会社、Dentsuについて簡単にご紹介させてください。

Dentsuはアジア最大の広告代理店で、現在100カ国以上でグローバルにビジネスを展開しており、従業員数は7万人を超えています。あ、一つ言わなければなりません。お礼を言わせてください。私にとって嬉しいニュースでした。本当にありがとうございます。昨日のキーノートセッションで、CEOのMatt GarmanがDentsuをマーケティングの巨人として言及してくださったんです。いやいやいや、私たちはそんなに背の高い巨人ではありません。アジアでナンバーワンなだけです。Matt Garman、本当にありがとうございます。こんな感じです。

Thumbnail 2300

Thumbnail 2320

ところで、ところで、私たちはMugen AIというソリューションを持っています。これは一種のデジタルマーケティングソリューションです。ここではAWS AIサービスを大いに活用しています。今日は、このソリューションの中で、Amazon AWS AI、特にNova Omniをどのように活用しているかをご紹介したいと思います。では、本題のアジェンダに入りましょう。3つのトピックがあります:クリエイティブ、プランニングオペレーション、そして次世代エクスペリエンスです。このアジェンダは、マルチモーダルAIやエージェントAI、フィジカルAIといった生成AIの進化に沿っています。最初のトピック、クリエーションに入りましょう。

Thumbnail 2340

クリエーションでは、Me AI Aというソリューションがあります。これにはクリエイティブ生成、パフォーマンス予測、改善提案という3つの機能があります。ありがたいことに、すでに200社以上に導入されており、平均150%以上の改善を達成することに成功しています。ここで強調したいのは、私たちはこのソリューションを会話型にするためにAmazon Novaを活用しているということです。従業員ができるだけ多く使えるようにするためです。しかし、まだ課題があります。それはビデオクリエイティブ、ビデオクリエイティブです。

例えば、正確な動画予測を得ることができなかったんですが、Amazon Nova Omniを使えばこの状況を変えることができると言えます。では、説明させてください。従来のアプローチでは、何をしていたかというと、元の動画をキーフレームのようなもっとシンプルで断片的な情報に変換していました。そしてキーフレームをテキストの要約に変換する必要もありましたし、音声からも情報を取得する必要がありました。このように、すべてが分離されていたんです。でもこれは人間が動画を見る方法とは本当に異なっています。

その結果、精度はそれほど高くありませんでした。一方、Amazon Nova 2 Omniは真の本物のマルチモーダルAIなので、私たちと同じように動画そのものを理解することができます。その結果、予測において非常に高い精度を得ることができます。また、従来の方法では、必要なのは非常に膨大な量のデータでした。しかしNova Omniはバックグラウンドで既に膨大な知識を学習しているため、そのような量のデータは必要ありません。少量の高品質なデータを準備するだけでいいんです。

Thumbnail 2450

Thumbnail 2460

Thumbnail 2470

では、ここでデモをお見せしましょう。やるべきことは、このように動画をアップロードするだけです。そして広告キャンペーンを選択して、予測モデルのためのトレーニングデータを準備します。そのモデルが、どのような動画クリエイティブがより高いパフォーマンスを持つかを教えてくれます、このように。そして最終的に、アップロードした動画の予測値を得ることができます。ここで強調したいのは、予測値と実際の配信値との間の相関値が0.88のように非常に高いということです。ですから、本当に正確に予測を行うことができるんです。ちなみに言い忘れていましたが、この例はANAからのものです。日本最大の航空会社ですね。私もその飛行機を使ってここに来ましたので、例を提供していただき本当にありがとうございます。

Thumbnail 2510

Thumbnail 2550

ところで、Nova Omniを予測だけに活用するのではなく、生成にも使うことができます。なぜならNova Omniは真のマルチモーダルだからです。そこで、どの動画が高いパフォーマンスを持つかの傾向を理解できる頭脳を準備して、その頭脳を使ってストーリーボードを生成します。マルチモーダルなので、絵を描くこともできるんです。では、このようにデモを確認しましょう。同じAIに、さあストーリーボードを作りましょうと頼むだけです。まず、テキストのストーリーボードを得ることができます。このストーリーボードをビジュアルのストーリーボードに変換できます。そしてそのストーリーボードに基づいて、このように動く動画を非常に簡単に生成することができます。

Thumbnail 2560

そしてここで2つのことを強調したいと思います。これはOmniの画像生成能力に関連しています。1つ目は、Omniの理解力が本当に高いので、自然言語で画像を扱ったり編集したりするのが非常に簡単だということです。2つ目は品質そのものです。主要なモデルに対して競争力があるというか。そして私が本当に驚いたのは、日本語の文字を本当に正確に美しく生成できることです。私たちにとってはほぼ初めてのことです。本当に高品質です。

Thumbnail 2600

Thumbnail 2610

Thumbnail 2620

Thumbnail 2630

はい、ストーリーボードや動画をゼロから生成するだけでなく、既存の動画も再利用できます。なぜならOmniはどの部分が重要かを理解しているからです。それでは再度デモを見てみましょう。ちょっと疲れたので、私の代わりにこちらを聞いてください。本日はAIがいかにコンテンツ制作を加速させるかをデモンストレーションします。まず、生の動画ファイルをアップロードします。Nova Omniは即座に映像を分析し、すべてのシーンの詳細なメタデータを生成します。次に、クリエイティブディレクターとして機能し、具体的なフックとスクリプトを含むバイラル戦略を作成します。最後に、インタビューとビジュアルに対するAIの深い理解を活用して、最終的な動画編集を効率的に作成します。生の映像からバイラル対応まで、インテリジェントな分析によって効率化されます。

Thumbnail 2650

Thumbnail 2660

プランニング・オペレーションから次世代エクスペリエンスへ:7日間で7つのアプリケーション開発

このように、Nova Omniを使うことで、動画のような複雑なデータを非常に簡単に扱うことができます。では、次のトピックに移りましょう。プランニングとオペレーションです。私たちはMugen AI Agent Canvasという名前のソリューションを持っています。これはエンジニアでない人がエージェントを簡単に構築できる、いわゆるシチズンデベロップメントソリューションです。そして私たちはすでに、戦略プランニングやジャーニープランニング、メディアプランニングといったマーケター向けのソリューション開発に成功していますが、エージェントにNova Omniを活用することで、さらに先に進むことができます。この部分は興味深いと思います。

さて、私たちが行ったのは、Omniに人間を模倣させることです。左側の動画は、実際に人間がAmazonの自動化UIのUIを操作しているものです。

Thumbnail 2710

Thumbnail 2720

Amazon Ads Operation Automation using Xnurtaという自動化UIを使っていて、そしてこの動画をNova Omniに入力しました。Nova Omniはワークフローを理解し、Nova Act用のプロンプトを書きます。Nova Actはブラウザの操作を扱えるAIです。ご覧のように、人間の手を一切介さずに、このプロセスを完全に自動化できるんですね。

Thumbnail 2730

これら2ページはOmniと直接関係はありませんが、非常に良い例なので紹介させてください。ここまで、クリエイティブの予測や生成、プランニングやオペレーションといった、日本向けのAIソリューションを紹介してきました。これから私たちが行おうとしているのは、Bedrock Agentのマルチエージェントコラボレーション機能を活用して、すべてのソリューション全体を1つのAIエージェントに統合することです。では、デモを見てみましょう。

Thumbnail 2760

Thumbnail 2770

Thumbnail 2780

これから行うことは、すみません、日本語で書かれていますが、英語で話します。 では、新製品のスパークリングウォーターを作りましょう。シャイニング・スパークリングウォーターはどうでしょうか?それではAIペルソナに話しかけて、 ペルソナにどう思うか聞いてみます。そして、味自体がそれほど重要でなければ、見た目が良ければ大丈夫です。では、 インタビューをまとめましょう。そしてインタビューに基づいて、名前やキーメッセージ、そしてキービジュアルを検討することができます。

Thumbnail 2790

Thumbnail 2800

Thumbnail 2810

Thumbnail 2820

そして、これを バリュープロポジションとしてまとめます。そのプロポジションに基づいて、カスタマージャーニーを準備できますし、獲得パートについては、デジタルバナーの 生成などが必要になります。つまり、私が言いたいのは、すでに私たちはAmazon Nova AIリードをソリューションに適用しており、さらに Amazon Nova Omniを使って進めることができ、それらをBedrock Agentと組み合わせることができるということです。さて、ここまで 説明したのも、マーケティングエージェントにAIを活用する一種の高度な方法です。

Thumbnail 2830

Thumbnail 2850

Thumbnail 2860

しかし、最後のトピックとして、次世代のエクスペリエンスについて話しましょう。 それは、より会話的で、インタラクティブで、リアルで、フィジカルなものです。最初の例は、チャットを使ったものです。このソリューションを使えば、クライアント固有のデータを活用して、クライアント向けのチャットボットを非常に簡単に準備できます。もちろん、これはAWSベースで、Amazon Novaシリーズを活用しています。 このように、これはゴルフコース予約の例です。しかし問題は、これが単なるテキストからテキストへの会話だということです。かなり普通ですが、 Nova Omniを活用すれば、このようなより豊かな体験を提供できます。

Thumbnail 2890

Thumbnail 2900

彼は私の友人で、音声でAIと話しています。あなたの動画を分析しました。マイクをタップして話してください。ええ、最初は彼女が英語で話していて、それから彼が日本語で情報を入力しています。とても興味深いです。英語だけで話していて、 それから彼は日本語で話していますが、会話は途切れていません。そしてここでは動画もアップロードできます。 AIは私たちの動画を理解できるので、このようにゴルフスイングを改善する方法についてアドバイスをくれます。これは実世界に関連した新世代の体験の一種です。

Thumbnail 2920

そしてもっと例があります。 これは店内体験のようなものです。左側の動画で行っているのは、店内での顧客視点からの動画で、この顧客は香水を見ていて、ちょっと待っていると、おそらく彼女、この顧客はこのように店員に話しかけています。そして私たちが行っているのは、この顧客のペルソナを抽出することです。例えば、この動画から推測すると、この顧客は女性かもしれません。そして、ゴージャスでスタイルを意識したオフィスワーカーのような感じです。このように、ペルソナを抽出できます。

Thumbnail 2980

そして、このペルソナをデジタルの世界でも使うことができます。これはなかなか面白い例だと思います。私たちがやったのは、このペルソナをAmazon Nova Actに使ったんですね。つまり、店舗内での行動に基づいて、このお客様がeコマースショップでどのように行動するかを推測できるわけです。そして、このような実店舗とeコマースストアをつなぐテクノロジーは、VRやARグラスが広く普及する時代にとって非常に重要だと思います。

Thumbnail 3010

Thumbnail 3030

さて、これでプレゼンテーションはほぼ終わりです。今日は、Amazon Nova 2 Omniをベースにしたいくつかのアプリケーションをご紹介しましたが、これはマーケティングセッションではないことは承知しています。これはテクノロジーセッションです。ですので、非常に衝撃的なニュースをお伝えします。実は、先月の火曜日に今日プレゼンテーションがあると知らされまして、準備期間はたった7日間しかありませんでした。でも、7つのアプリケーションをご紹介しましたので、1日1アプリケーションということになります。かなり迅速な開発です。実は、ここに座っている鈴木さんという女性が、これらのソリューションを一人で開発したんです。

ですから、以前と比べて、開発環境はかなり変わってきています。以前は、1つのソリューションに少なくとも3ヶ月かかっていましたが、今ではたった1日です。ですから今は、自分たちのビジネスだけに集中できるようになりました。そして、これがAIと協働する正しい方法だと思います。これがほぼ最後のコメントになります。AWS AIのおかげで、私たちは開発に関する懸念からかなり解放されています。そして、マーケターとして、人々の心を動かすことや、新しい価値を創造すること、そして世界を変えることに集中できるのです。どうもありがとうございました。終わります。


※ こちらの記事は Amazon Bedrock を利用し、元動画の情報をできる限り維持しつつ自動で作成しています。

Discussion