📖

re:Invent 2024: Amazon AIが新機能Nova CanvasとNova Reelを紹介

に公開

はじめに

海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!

📖 AWS re:Invent 2024 - Creative content generation with Amazon Nova Reel & Amazon Nova Canvas (AIM389-NEW)

この動画では、Amazon AIのDirectorらが、Amazon Nova Foundation Modelsファミリーの新機能について詳しく解説しています。特に、Text-to-ImageのAmazon Nova CanvasとText-to-VideoのAmazon Nova Reelに焦点を当て、それぞれの技術的特徴や性能を紹介しています。Nova Canvasは2K×2Kの高解像度画像生成に対応し、Dall E-3やSD 3.5を上回る画質を実現。Nova Reelは24fps・6秒間の動画生成が可能で、Runway Gen-3 AlphaやLuma 1.6と比較して61%以上の高い評価を獲得しています。また、Dentsu Digitalのmugen AIでの実装事例では、動画バナーの制作でConversion Rateが8倍、Cost Per Actionが73%削減されるなど、具体的な成果も示されています。
https://www.youtube.com/watch?v=csgZhdH-qSQ
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。

re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!

本編

Amazon Nova: 最先端のFoundation Modelsファミリーの紹介

Thumbnail 0

本日は、Gen AIモデルを使用したCreative Content Generationについてお話しさせていただきます。本日は同僚の、Amazon AIのDirector of ScienceであるAshwin Swaminathan、Amazon AIのPrincipal Product ManagerであるVeerdhawal Pande、そしてDentsu DigitalのSatoru Yamamotoと共にお話をさせていただきます。

Thumbnail 40

本日のアジェンダですが、まず昨日のAndy Jesseのキーノートで紹介されたAmazon Nova Foundation Modelsファミリーについて振り返ります。その後、2つのCreative Content Generation モデル、Amazon Nova CanvasとAmazon Nova Reelについて詳しく見ていきます。続いて、山本さんからDentsu Digitalでこれらのモデルをどのように活用して顧客のユースケースを簡素化しているかについてお話しいただきます。最後に、Andyが昨日予告した来年リリース予定の新しいモデルを含め、Nova Familyの将来についての興味深い予告をご紹介します。

Thumbnail 90

Amazon Novaは、業界をリードする価格性能比で最先端のインテリジェンスを提供する、新しい最先端Foundation Modelsファミリーです。この一環として、Andyは理解モデルとCreative Content Generationモデルに分類される固定モデルを発表しました。理解モデルには、Amazon Nova Micro、Amazon Nova Lite、Nova Pro、そして来年リリース予定のNova Premierが含まれます。最初のカテゴリーのモデルは、テキスト、画像、動画を入力として受け取り、テキストを出力として生成します。2番目のカテゴリーはCreative Content Generationモデルで、マーケティング、広告、Eコマース、出版、エンターテインメントのユースケースに対応するText-to-Image生成やImage-to-Image編集をサポートするAmazon Nova Canvasが含まれます。さらに、Amazon Nova Reelは、マーケティング、広告、エンターテインメントのユースケース向けに魅力的なショートクリップを生成する動画生成モデルです。

Amazon Nova Canvas: プロフェッショナルグレードの画像生成モデル

Thumbnail 170

Thumbnail 200

まず、Amazon Nova Canvasについてですが、これは簡単なBedrock APIを通じてテキストや画像を使用してプロフェッショナルグレードの画像を簡単に生成できる最先端の画像生成モデルです。これらのモデルはすべてBedrockで一般提供されており、Bedrock APIを使用してアプリケーションを開発することができます。 こちらが、このモデルが生成できる画像の例です。

Thumbnail 210

昨年、私はこのステージでTitan Image Generatorモデルの発表を行いましたが、今年はそこから得られたすべての学びを活かし、アーキテクチャを一新して新世代の画像生成モデルAmazon Nova Canvasを発表しました。特に品質面で大きな改善が見られ、現在では2K×2Kの高解像度画像を複数のアスペクト比で生成できるようになりました。画像生成と画像編集の両方をサポートしています。Q1に導入予定の重要な機能として、お客様独自の画像を使用してモデルをFine-tuningする機能があり、これにより特定のスタイルやブランドの美的感覚に合わせた画像生成が可能になります。このモデルには、現在APIを通じて他のモデルプロバイダーが提供していない高度な機能が搭載されています。

Thumbnail 300

このモデルの主な3つのメリットの1つ目は、最先端の画質です。私たちが公開している最先端の画質に関するベンチマークについて、詳しくご説明させていただきます。これは自動ベンチマークと人による評価の両方で検証されています。2つ目の重要な点は、画像生成と編集の両方において豊富な機能を備えていることです。お客様向けに10以上のAPIを提供しており、単にテキストから画像を生成するだけでなく、その生成方法を細かくコントロールできる多彩な機能を用意しています。また、AIの安全で責任ある使用のための制御機能が組み込まれているため、企業として最終出力を心配する必要がありません。

Thumbnail 370

1つ目の主要なメリットである最先端の画質について、さらに詳しく見ていきましょう。 これは画質とText-to-Image prompt adherence(テキストプロンプトへの忠実度)という2つの指標で評価しています。これは、テキストプロンプトで指示された要素をすべて生成された出力に含められるか、モデルがどれだけ正確に指示に従えるかを測定するものです。この評価は自動評価と人による評価の両方で行っています。先ほど触れたように、総ピクセル数が420万以下であれば、1:4から4:1の間のどのアスペクト比でも2K×2Kの画像に対応しています。

Thumbnail 410

こちらが公開しているモデルカードで、技術レポートにさらに詳しい情報が記載されています。Amazon Nova Canvasを、人気のある最先端の画像生成モデルと2つのベンチマークで比較しています。自動評価では、画質を測定するImageReward Scoreと、指示への追従度またはText-to-Image prompt adherenceを測定するTIFAを使用しています。ご覧の通り、両方の指標においてAmazon Nova CanvasはDall E-3やSD 3.5の大規模モデルを上回っています。技術レポートには他のモデルとの比較も掲載しています。また、独立した評価機関による人による評価でも、Nova CanvasはDall E-3やImagen-3といった業界をリードするモデルを上回る性能を示しています。

Thumbnail 490

2つ目のメリットである豊富な機能についてお話しします。 画像生成と画像編集の両方で10以上のAPIをサポートしています。画像生成については、Text-to-imageに加えて、画像バリエーション生成、ブランドの美的要素に重要なHexコードやカラーコードを使用した画像生成をサポートしています。Image conditioningでは、参照画像を提供し、Fine-tuningなしで実行時推論だけでその参照画像のスタイルで出力を生成できます。編集については、従来のInpaintingやOutpainting、さらに私たちのセグメンテーションモデルが画像内で言及されているオブジェクトを検出する自動編集など、様々な機能をサポートしています。また、お客様から強い要望のあったBackground removal機能も、最近Titanイメージモデルに追加され、Nova Canvasにも含まれています。カスタマイズ機能は、お客様から大きな関心を集めている今後の重要な機能です。

Thumbnail 570

私たちのすべてのモデルは、Responsible AIを念頭に置いて構築されています。有害なコンテンツの生成を最小限に抑えるため、入力と出力の両方に特定のGuardrailsを設けており、お客様が独自のGuardrailsを構築する必要がないようになっています。Nova Canvasで生成されるすべての画像には、Amazonのホワイトハウスへのコミットメントに沿って、目に見えないWatermarkが含まれています。

最近、TitanモデルにContent Credentialsを追加し、画像のソース、AI生成かどうか、元の画像からの編集や生成における変更点を特定できるようになりました。このモデルとAmazon Reelから生成された出力については、すべてIndemnityを提供することでお客様をサポートしています。また、Responsible AIの柱となる要素について広範なRed Teamingを実施し、その結果をレポートとして公開しています。

Thumbnail 660

Thumbnail 680

Thumbnail 700

このモデルが生成したいくつかの例を見てみましょう。これから見ていただくスライドの画像は、すべてこのモデルで作成されたものです。プロンプトの詳細は繰り返しませんので、画像をじっくりとご覧ください。 もう1つ強調したい点は、多様性です。私たちは独自の特許出願中の技術により、ステレオタイプを最小限に抑えながら、出力の多様性を維持することができます。 こちらはInpaintingの例で、左側の画像から始めて、この場合は白鳥の群れなど、さまざまなオブジェクトを追加することができます。

Thumbnail 720

Thumbnail 740

Thumbnail 750

Thumbnail 760

Outpaintingは、広告やマーケティングのユースケースで特に重要です。製品の核となる部分を保持しながら、その周りにライフスタイル画像を生成したい場合に使用できます。これは、マスクを提供するか、参照したいオブジェクトを自動的に識別する自動編集によって実現できます。 Image Conditioningでは、入力プロンプトと共に参照画像を提供することで、最終的な出力生成をガイドすることができます。 こちらは参照画像のもう1つの例です。 Color Paletteは、企業のマーケティングチームから特に要望の多い機能の1つです。特定のブランドパレットに従った画像を必要とする場合、テキストプロンプトと共に最大5つのHexコードを提供することで、生成される画像がそれらの色に従うようになります。

Thumbnail 790

Background Removalは重要な追加機能でした。これは、お客様がGen AIモデルを使用する際、背景除去のために外部ソフトウェアに頼らざるを得ず、RAINなどの問題が発生していたためです。このモデルについて私たちは非常に興奮しています。すでにAmazonのビジネスを変革し、多くのお客様の関心を集めています。Titanモデルを使用していたお客様は、すでにNova Canvasへの移行を開始しており、新規のお客様からも大きな関心を寄せていただいています。皆様にもぜひ試していただき、ご質問があればお聞かせください。

Amazon Nova Reel: 革新的なText-to-Video生成モデル

Thumbnail 850

Thumbnail 860

それでは、Nova Reelについて、Ashwinに説明を譲りたいと思います。 先ほどAndy's Keynoteで発表したように、昨日Amazon Nova Canvasをローンチしました。 Amazon Nova Canvasをベースに、最先端のText-to-videoモデルであるAmazon Nova Reelも開発しました。Canvasが画像を生成するのに対し、Reelは動画を生成します。ここに例がありますが、波が打ち寄せる貝殻のクローズアップや、中年男性の例をご覧いただけます。画像から動画生成への移行における課題は、画像と同じような構図を維持するだけではありません。テキストプロンプトに従って動画を生成する必要もあります。これらの2つの例では、テキストプロンプトでズームインやドリーインなどの動きを指定しているため、このようなフィードバックや入力を取り入れる必要があります。

これが、Text-to-imageモデルからText-to-videoモデルへの移行における課題の1つであり、私たちは適切に実現するために多くの時間を費やしました。

Thumbnail 920

ここでは、コーヒーを飲むキノコの例をご覧いただけます。そしてこちらは、やや複雑なプロンプトで、チーズバーガーを中心とした構図になっています。フライドポテト、ドリンク、溶けているチーズが隣に配置されています。動画を生成する際には、これらの要素をすべてまとめる必要があり、それがモデル構築における課題の1つでした。

Thumbnail 950

Amazon Nova Reelについて詳しくお話ししましょう。Amazon Nova Reelはテキストプロンプトから動画を生成しますが、Text-to-videoに加えて、Image-to-videoのユースケースもサポートしています。お客様は画像を持ち込んで、Amazon Nova Reelモデルを使って動画に変換することができます。現在、24フレーム/秒で最大6秒間の動画生成をサポートしており、まもなく2分間の動画生成も提供開始予定です。2分間の生成が可能になれば、お客様はより長い動画の生成やストーリーボードの作成などが可能になります。また、もうすぐVideo editingの機能も提供開始予定です。

Thumbnail 1000

Nova Canvasと同様に、Nova Reelの主な利点は、最先端の動画生成モデルをAPIの一部として提供することです。BedrockでGenerally Availableとなっており、お客様はBedrockのAPIを通じて利用できます。また、幅広いカメラモーション制御もサポートしています。ドリーイン、パン、チルト、ズームイン、ズームアウトなどの動画を生成したい場合は、シンプルなテキストプロンプトで指定できます。現在10~15種類の動きをサポートしており、AWS公式サイトでサポートしているすべての動きタイプのプロンプトガイドラインをご確認いただけます。最後に、モデルを安心してご利用いただくための重要な機能として、Responsible AIもサポートしています。

Thumbnail 1060

ビデオ生成の詳細について説明しましょう。テキストプロンプトからビデオを生成する際、6秒のビデオを24フレーム/秒で生成すると、144フレームを生成することになります。これら144フレーム全体で内容の一貫性を保つ必要があります。つまり、被写体がある場合は、シーケンス全体を通して同じ被写体である必要があり、背景も同様に一貫している必要があります。例えば、あるフレームで茶色のキノコが、別のフレームで黄色になってしまうと、ユーザー体験が著しく損なわれてしまいます。

私たちは、他社のモデル、特にRunway Gen-3 AlphaとLuma Labs Luma 1.6と比較する広範な人による評価を実施しました。すべての評価は外部の第三者機関によって行われ、その詳細は昨日公開された技術レポートに記載されています。人による評価は、ビデオの品質とビデオの一貫性という2つの大きなカテゴリーに分類しました。ビデオ品質については、Amazon Nova Reelモデルと、Gen-3 AlphaやLuma 1.6などのサードパーティモデルを使用してビデオを生成し、ブラインドABテストで人間のアノテーターに見せました。どのビデオがどのモデルに対応しているかを知らないアノテーターは、生成されたビデオがテキストプロンプトにどれだけ忠実であるかなど、特定の観点を見るように訓練されています。アノテーターはText-to-imageとビデオ生成の両方の側面を評価します。

画像の構図はテキストプロンプトの内容と一致している必要があり、動きの構成も入力プロンプトと一致している必要があります。例えば、プロンプトでズームイン効果が要求された場合、ビデオはズームアウトではなくズームインする必要があります。私たちはアノテーターに、高解像度の画像生成という観点での画質と、シーンにジッターやチャタリング、スタッターがなく、テキストプロンプトに従いながら可能な限り滑らかな動きを実現するという観点での動画品質の両方を評価してもらいます。

ビデオ品質の評価では、私たちのモデルはRunwayに対して61%、Luma 1.6モデルに対して約53%の勝率を達成し、両モデルを上回る結果となりました。評価の2つ目の側面である一貫性については、お客様の使いやすさを考慮して、前景と背景の両方の一貫性に焦点を当てています。一貫性に関しては、他のモデルと比較して71%から78%という大幅に高い勝率を達成しました。これらの評価の詳細は技術レポートに掲載されています。

Amazonでは、ホワイトハウスのポリシーに沿って、Responsible AIを最重要事項の1つとして位置づけています。Amazon Nova Canvasと同様に、Amazon Nova Reelも同じ指針に従っています。NSFWコンテンツや有害なコンテンツの生成を最小限に抑えることで、お客様が私たちのモデルを簡単に使用できるようにしています。第三者機関による徹底的なレッドチーミングを実施し、モデルを綿密にテストして評価することで、潜在的なリスクを低減し、お客様が企業のユースケースでモデルを信頼して導入しやすくしています。

私たちが生成するすべての動画には透かしが入っており、これによって真正性の検証とAI生成コンテンツであることを明確に示すことができます。さらに、Amazon Nova ReelとCanvasの両モデルに対して補償を提供しており、お客様のユースケースへの統合がより容易になっています。今後の展開として、最大2分までの長尺動画の生成に対応する予定で、現在BedrockのAPIで利用可能な720pに加えて、近く1080pの解像度もサポートする予定です。私たちは昨年、Titan Image GeneratorからNova Canvasを開発したように、継続的な改善を行っています。Nova Reelについても、特に人物の生成や動画生成における他の複雑な側面について改善を進めており、これらの改善は2025年に向けて順次リリースされる予定です。

ここで、私たちのモデルを利用している社内のAmazonチームのケーススタディをご紹介します。最初の例はAmazon Adsです。広告主の方々は、Nova Reelを使用して動画シーケンスを生成し、製品をそれらに組み込むことができます。これにより、広告マーケティングキャンペーンやソーシャルメディアキャンペーン用の短い動画を作成し、ワークフローに直接統合することができます。Amazon AdsはこのNova Reelを基盤とした機能をリリースし、広告主がamazon.comから直接利用できるようになっています。

もう一つの例をご紹介します。パスタを販売していて、単に動画の横に商品を表示するのではなく、動画自体に商品を直接組み込みたい場合を想像してみてください。Amazon Nova Reelを使用して、パスタをタワーに、ミートボールとマリナラソースを通りに見立てた「パスタシティ」を作ることができます。これは、複雑なプロンプトと様々な種類のモーションを組み合わせて、動画自体に商品を組み込み、魅力的な顧客体験を創出する方法を示しています。

これは長尺動画の例です。ストーリーボーディング機能は近日公開予定です。このストーリーボーディング機能の一部として、一連のシーンを作りたい場合を想像してみてください。例えば、6〜7つのシーンからなるシーケンスがあるとします。6〜7つのシーンで構成される動画を生成したいとします。最初のシーンは、黒い巻き毛の女性が未来的なガラスのエレベーターに乗り込む場面から始まり、その後、別のシーンへとパンアウトしていきます。

クリエイターとしてストーリーボードに取り組んでいる場面を想像してください。2番目のシーンは熱帯雨林に座っているサルかもしれません。私たちのモデルを使用して、ストーリーボードを構築し、完全なストーリーやシーケンスを直接作成することができます。これは近日中にリリースする予定の機能で、お客様が独自の脚本を持ち込み、ストーリーテリング全体の一部として一貫性のある動画を生成することができます。例えば、コミックを直接動画コミックに変換したい場合を考えてみてください。この例では、女性のショットが見えますが、この人物が複数のショットを通して登場し、私たちは同じ人物が複数のシーケンスに確実に登場するようにしたいと考えています。

Amazon Nova Reelは、APIを使用してこのような機能を提供する初めてのサービスとなり、お客様が自社の機能と簡単に統合できるようになります。2分程度の動画で全体的な体験を構築し、生成することができます。独自のコミックブックやストーリーブックを作成し、製品を通じてこれらの体験を直接実現することが可能です。それでは、DentsuがAmazon Nova CanvasとAmazon Nova Reelを実際にどのように活用しているのか、山本さんにお話しいただきたいと思います。

Dentsu DigitalによるAmazon Nova活用事例

ありがとうございます。このような素晴らしい機会をいただき、感謝申し上げます。私はDentsu DigitalでエグゼクティブオフィサーとしてAIを担当している山本覚です。東京大学でAIを研究し、現在も研究を続けています。この15年間で多くのAIマーケティングソリューションを開発してきました。日本のテレビ番組「正解の無いクイズ」に出演し、AIを活用して質問に答える試みを行っています。一つお断りしたいのですが、日本人は英語が得意ではありませんので、言語そのものよりも内容と熱意に注目していただければと思います。

Dentsuについてご紹介させていただきます。Dentsuは日本最大の広告代理店で、日本、アメリカ大陸、EMEA、APACを含む約128カ国でグローバルに事業を展開し、71,000人以上の従業員が働いています。私の会社であるDentsu Digitalは、Dentsu Japanの子会社で、日本最大級の総合デジタル企業の一つです。私たちはAmazon Bedrockを活用して新規事業を開発しています。Dentsu Digitalは、クリエイティビティとテクノロジーを組み合わせて、既存事業の成長と変革を実現します。mugen AIという名前のAIソリューションブランドを展開しており、mugenは日本語で「無限」を意味し、広告、CX向けのチャットとコンテンツ、データ分析とAIモジュール向けのマーケティングハブという4つのアプリケーションを含んでいます。

動画生成AIは私たちの領域と最も強い関連性があるため、今日は主にmugen AI adsについてお話しします。mugen AI adsは、デジタルクリエイティブ制作のプロセスを全面的にサポートするソリューションです。今年だけでも100社以上に導入され、平均で154%の改善スコアを達成しています。メッセージ発見、クリエイティブ生成、効果予測、提案という4つの機能で構成されています。

生成と予測について、特にGenerative AIとの関連で見ていきましょう。生成に関しては、現在Large Language Modelsを活用することで、タグラインやテキストコンテンツを簡単に生成できることは想像に難くありません。また、Amazon Nova Canvasを活用することで、テキストの指示だけで静止画バナーの画像を編集することもできます。人物の置き換え、背景の拡張、背景の置き換えなどが可能です。Amazon Nova Canvasは、DEI(多様性、公平性、包括性)の観点で非常に洗練されているため、レスポンシブルAIの観点からも安心して私たちのソリューションに導入できることを申し上げたいと思います。

それでは、予測と提案のパートに移りましょう。私たちのAIソリューションは、他の配信データと同様にプラットフォームに日々接続されており、実際の配信結果とタグライン、背景、オブジェクト、色などのクリエイティブ要素との相関関係を学習しています。AIは、背景色を白からピンクに変更したり、女性の画像を調整したりするような提案を行うことができます。さらに、マルチモーダルAIの登場により、動画広告の予測と提案も可能になりました。例えば、シーン2が最も重要なシーンであることを示し、人数を変更したり、背景を都会から郊外に変更したりすることを提案できます。

これまで動画広告の生成は非常に困難でしたが、Amazon Nova Reelのおかげで現在は可能になったことをお知らせできて嬉しく思います。実際のクライアントであるGolf Digest Online(ゴルフ予約サイトとゴルフ用品のEコマースサイトを運営する会社)でテストを行いました。Black Fridayバナーの制作では、3つの簡単なステップで行いました。まず、既存のAIを使用して元の静的バナーの背景を削除しました。次に、Amazon Nova Reelを使用して、「黒い背景から中心に向かって放射状に広がるゴールデンライト」といったプロンプトを入力し、動く背景を用意しました。3番目のステップは単なる重ね合わせでした。わずか5分で完了し、従来の動画制作よりもはるかに効率的でした。

Thumbnail 2030

4つのサイズのバナーを用意しましたが、計測するまでもなく、これらの動くバナーの方がパフォーマンスが高いことは明らかでした。 バリエーションの作成も本当に簡単です。動画生成AIに全く同じプロンプトを入力しても、似ているけれど少し異なる動画背景が得られます。例えば、光の動きが少し異なることに気付くでしょう。回転するルーレットのようなより複雑な動きなど、異なるプロンプトを入力すると、そのような背景を得ることができます。

Thumbnail 2080

実際の配信でトップバナーをテストしたところ、結果は素晴らしいものでした。だからこそ私がここにいるのです - 素晴らしくなければ、ここにいないでしょう。 Conversion Rateに関しては8倍高いパフォーマンスを達成し、Cost Per Actionについては驚くべきことに73%のコスト削減を実現しました。私たちが行ったのは、背景を静止画から動画に変更しただけだということを覚えておいてください。わずかな変更でしたが、このような小さな修正でパフォーマンスが劇的に改善されたことは非常に重要です。GDOだけでなく、他の企業からも多くの依頼を受けています。

例えば、Kakaku.comは日本最大級のサイトの1つですが、シンプルな青いパターンの背景を回転する要素の動きに変更してみました。ホテルでは、静止画の夜景を、きらめく光やハイウェイの眺めを含むゆっくりとしたカメラモーションに変更しました。このApaホテルは今週オープンしたので、日本、特に大阪に来る機会がありましたら、Apaホテルにぜひご宿泊ください。

メインコンテンツはほぼ終わりですが、もう一つ追加コンテンツをご紹介させていただきます。ここで強調したいのは、ビデオ制作が非常に簡単だということです。私自身が試してみましたが、必要なのはプロンプトを入力するだけでした。まず、クラウド上のLLMにプロンプトを入力しました。AWSとDentsu Digitalの AI を活用したコラボレーションを描写するビデオの作成をLLMに依頼しました。すると、7つのセグメントからなるストーリーボードのプロンプトを受け取り、それらを順番に入力して7つのビデオを組み合わせました。

私はプロのクリエイターではありませんが、私の作品をご覧ください。東京を舞台に、AWSのデータセンターにサポートされながら働くDentsuのガイドたちを描いています。DentsuのガイドたちはAWSの分析システムを使用し、疲れたら飲みに行きます。その後、Amazonのドローンが安全確認のために彼らを監視します。繰り返しになりますが、私はプロのクリエイターではなく、クリエイティブ制作やビデオ制作の初心者です。このビデオを日本テレビの有名なプロデューサーであるTanaka Shinjiさんにお見せしたところ、本当に私が作ったのかと驚かれました。ビデオ生成 AI がすでに実用レベルに達していて素晴らしいと言われ、テレビ番組だけでなく、あらゆる種類のビデオ制作の実際の制作プロセスに導入することに興味を示されました。

結論として、本日は広告 AI ソリューションとしての Amazon Nova、Canvas、Reel の強力な機能についてご説明しました。それだけでなく、ショートビデオのようなより複雑なコンテンツの可能性もお見せし、専門家から非常に好意的なコメントをいただきました。ビデオコンテンツのような豊かな体験への需要は急激に拡大しています。私たちの無限 AI ソリューションはすでに100社に導入されていることをご報告できて大変嬉しく思います。このソリューションを導入いただいているすべての企業に対して、この手法を活用することをお約束します。次世代のマーケティング、Marketing Nova と呼べるものを一緒に作っていきましょう。

Amazon Novaの未来:音声機能と多モダリティ対応への展望

ここで、Amazon Nova の未来についてお話しいただくため、Veerdhawal さんをステージにお招きします。私たちは、お客様から明確なフィードバックをいただきました。モダリティ固有のモデルを使用して、ユースケースを実現するために組み合わせるのではなく、単一のモデルで複数のモダリティを入力と出力の両方でサポートしてほしいということです。これを踏まえて、2025年第1四半期に Nova ファミリーのすべてのモデルに音声機能を追加し、その後、年内に any-to-any 機能を追加する予定です。

これらの機能には、画像、テキスト、音声、オーディオ、ビデオが含まれ、入力と出力の両方に対応します。音声機能について具体的にお話しすると、Nova ファミリーのモデルは、複数の言語にわたって単一の統合モデルを通じて、意味的に音声を理解し、高精度で表現力豊かな音声を生成することができるようになります。これにより、人間のような自然な会話 AI や、音声間の翻訳とローカライゼーションなど、複雑なアプリケーションや新機能が実現可能になります。

お客様のアプリケーションに命を吹き込むため、私たちはBedrock上で双方向のストリーミング音声処理APIと機能を提供していきます。これにより、低レイテンシーで人間らしい自然な会話AIや、ある言語から別の言語へのストリーミング音声翻訳が可能になります。また、Bedrockではバッチ処理機能も実現し、お客様はポッドキャストや書籍の複数チャプターなど、大量の音声コンテンツを効率的に処理できるようになります。

次に、Nova系音声対応モデルの主要機能についてお話しします。スムーズな対話の処理と自然なターンテイキングは不可欠な機能です。人間同士が会話する際に時々起こる、一時停止や躊躇、言語・非言語的な合図によってスムーズな対話やターンテイキングを示すように、この機能により会話AIアプリケーションも同様の自然さを実現できます。カスタマーサービスエージェントと話す際、応答を待つために意図的に会話を中断する必要はなく、AIは自然に反応し、あなたが考えを整理している間は辛抱強く待ってくれます。

さらに、表現力豊かな音声と適応的な音声応答も提供します。これらは、アクセントやジェンダーの多様性を持つ、豊富な表現力のある音声セットでサポートされます。これにより、オンラインでもオフラインでも、表現力の高いアプリケーションを構築できます。また、適応的な音声応答も備えています。モデルの核となる特徴の一つは、入力から出力まで音声とスピーチの文脈を保持できる能力です。例えば、カスタマーサービスAIエージェントへの通話で、発信者がイライラしているように見える場合、AIエージェントは共感的に応答を調整し、状況に適した方法で返答することができます。

オフラインアプリケーションについて言えば、各ナレーターの話し方のスタイルを移行することも可能です。英語からスペイン語へポッドキャストやオーディオブックを翻訳する際、一人または複数のナレーターがストーリーを語る場合を想像してください。話し方のスタイルや声のトーン、感情表現を、元の言語から目標言語まで保持したいと考えるでしょう。これらすべてが、複数の話者に対応する単一の統合モデルで実現可能です。さらに、自然言語でモデルにプロンプトを与え、同じモデルをオンラインとオフラインのアプリケーションに設定し、異なる音声やペルソナを選択する柔軟性も備えています。例えば、会話AIのカスタマーサービスエージェントのペルソナは、アメリカンアクセントを持ち、顧客との会話で共感的な応答ができるようになります。

以上で発表を終わらせていただきます。今後数ヶ月から四半期にわたって、これらの新機能を提供できるよう、皆様と密接に協力させていただくことを楽しみにしています。ご清聴ありがとうございました。


※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。

Discussion