📖

re:Invent 2024: Amazon AdsのGenerative AIで広告制作を効率化

2024/01/01に公開

はじめに

海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!

📖 AWS re:Invent 2024 - Unlock the power of generative AI: Simplify ad creation with AWS (AMZ303)

この動画では、AmazonにおけるGenerative AIの活用、特に広告制作の分野での実践的な取り組みについて解説しています。Amazon AdsのImage Generator、Live Images、Video Generatorなど、広告制作を簡素化するGenerative AIソリューションの開発過程と技術的な詳細が紹介されます。AI Creative Studioの導入により、広告主は商品写真から簡単に広告を生成できるようになり、その結果として広告支出に対するリターンが17%増加、CTRが8%向上するなどの具体的な成果が示されています。また、Amazon SageMakerやAWS Lambda、AWS Fargateなどを活用した実装方法や、サイエンティストとエンジニア間の効率的な開発を実現するカスタムSDKの構築についても詳しく説明されています。
https://www.youtube.com/watch?v=1t8tlKDZeA0
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。

re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!

本編

Generative AIと広告:AWSでの革新的な取り組み

Thumbnail 0

皆様、こんにちは。Garry Galinskyと申します。本日のプレゼンテーションチームの一員として、AMZ 303:Generative AIの可能性を解き放ち、AWSで広告制作を簡素化する、このセッションへようこそ。今日は、Generative AIと広告についてお話しします。会場の皆様にお聞きしたいのですが、Generative AIに携わっている方は手を挙げていただけますか?素晴らしい、何人かいらっしゃいますね。では、広告に携わっている方は?Generative AIと広告の両方に携わっている方は?素晴らしいですね。今日は皆様にとって有意義な内容をご用意しています。

Thumbnail 50

これから60分間、Generative AIがAmazon Adsにどのような影響を与えたのかを探っていきます。Generative AIの効果だけでなく、Amazonという企業にとってのその重要性についても見ていきます。これは300レベルのコースプレゼンテーションですので、アーキテクチャについて深く掘り下げ、私たちがGenerative AIの開発を加速させるために使用した基本的な構成要素についてお話しします。

Generative AIの急速な進化と社会への影響

Thumbnail 90

Thumbnail 110

この12ヶ月間で、私たちは大きな技術的変革を目の当たりにしてきました。Generative AIは、主にメディアで議論され、一部のアーリーアダプターによって探求される新興の概念でした。企業の多くは「これは一体何なのか?」という質問に時間を費やしていました。 今日では、状況が一変しています。私たちの会話は変化しました。もはやGenerative AIとは何かを問うのではなく、実装戦略に焦点を当てています:どうやってスケールさせるか?どうやってより大きく展開するか?どうやってより速く進めるか?どうやってイノベーションを加速させるか?

Thumbnail 130

これは単なる技術的進歩ではなく、本当のパラダイムシフトなのです。AWSでは、Generative AIをサポートする包括的なソリューション、テクノロジー、サービスの提供において最前線に立ってきました。このスライドは、昨日の朝とSwamiによる今朝の2つのプレゼンテーションだけでも既に古くなっています。この業界の進歩の速さを物語っており、AWSがその先頭に立っているのです。

Thumbnail 170

Thumbnail 190

Thumbnail 210

現在の技術進歩のペースは本当に驚くべきものです。私のような年齢の方なら、パーソナルコンピュータ革命を思い出すかもしれません。コンピュータが最初に登場した時期には、大きな技術的混乱がありました。PCそのものは懐疑的に見られ、労働力を脅かす可能性のあるものとして捉えられていました。 今日、私たちはGenerative AIで同じような転換点を経験しています。しかし、それははるかに圧縮されたペースで起こっているのです。 以前の技術革新が徐々に進み、何年もかかったのに対し、今日の変革は数ヶ月単位で起こっています。組織、企業、個人がこの流れに躊躇すれば、時代遅れになるリスクを抱えることになります。

Thumbnail 230

Thumbnail 240

Thumbnail 250

私の個人的な生活でも、これは身近な問題です。私には3人の娘がいます。ソフトウェアエンジニアのChloeと、学校の先生のGrace、そして法科大学院生のSesilyです。彼女たちはみな、Generative AIによって disruption(破壊的変革)が起きている職業に就いています。私たち家族は、彼女たちのキャリアに影響を与えているこのテクノロジーにどう向き合うべきか、そしてこれらのツールを使いこなせる側に立つにはどうすればいいのかについて、よく話し合っています。私にとって確実なのは、これらのツールへのアクセスと習熟が、彼女たちのキャリアの成功に不可欠だということです。

AmazonにおけるGenerative AIの活用と革新

Thumbnail 270

私の職業人としての経歴において、AWSで非常にユニークな役割を担っています。私はSolutions Architectですが、AWSのお客様としてのAmazonをサポートしています。Amazonは最大級のクラウド利用企業の一つであり、私はSolutions Architectとして彼らをサポートする特権を持っています。ご想像の通り、Amazonは非常にダイナミックな企業です。私たちはグローバルに、そして大規模に事業を展開しており、Generative AIがAmazonのビジネスをどのように再形成しているかを間近で見る機会に恵まれています。

Generative AIのおかげで、Amazonは新しい重点分野を持つようになりました。私たちは、社員の業務を強化するための高度なツールの開発に注力すると同時に、お客様やパートナーの皆様がこのGenerative AIの世界で成功するために必要なツールを提供する革新的なソリューションの創造にも力を入れています。そして、私の娘たちと同じように、ビジネスにおいても同じことが言えます - これらのGenerative AIツールへのアクセスと習熟が、Amazonでの成功に不可欠になるのです。私たちはこの革命を傍観しているだけではなく、積極的に推進し、これらのツールを構築することでリードしているのです。

Thumbnail 360

Thumbnail 370

Thumbnail 380

Thumbnail 390

Thumbnail 400

いくつか具体例をお見せしましょう。これはRufusです。Andy Jassyのキーノートでご覧になった方もいるかもしれません。RufusはAI搭載のショッピングアシスタントで、Amazonのお客様が商品を発見し、商品情報を見つけ、比較することをサポートします。つまり、これは私たちのお客様を支援するツール、お客様のためのGenerative AIアシスタントなのです。Amazonのフルフィルメントセンターでは、以前はメンテナンスエンジニアが運用上の問題を診断するために、複雑な技術文書を何時間もかけて調べていました。現在では、Generative AIアシスタントを使用して、このプロセスを数時間から数分に短縮しています。これにより、リソースの効率性と問題解決能力を劇的に向上させることができます。しかしさらに重要なのは、お客様の荷物が時間通りに配達されることを確実にできるということです。これは、お客様のためなのです。

Thumbnail 410

Thumbnail 420

Thumbnail 430

Thumbnail 450

同様に、社内では、カスタマーサービスのトレーニングが革新的に変わりました。従来、カスタマーサービスエージェントが熟練するには、何千時間もの実際の通話対応が必要でした。現在では、AI搭載の合成ペルソナを使用してカスタマーサービスエージェントのトレーニングコンテンツを生成しています。これにより、スキル開発を加速し、提供するトレーニングの拡張性と一貫性を高めることができます。ここでGenerative AIを使用しているのは、人間を置き換えるためではありません。人間のパフォーマンスを向上させるためにGenerative AIを活用しているのです。これらは単なる技術的な改善ではありません。これらは職場の生産性に対する私たちの認識を根本的に再構築するものであり、私たちは常に新しい機会を探して、今やっていることを再考しています。

私たちは、リーダーたちからインスピレーションを得ています。これは、AWS のSVPの一人である Colleen Aubrey の言葉です。彼女は、画像生成をよりシンプルで簡単にするツールを作ることができれば、広告主に利益をもたらすだけでなく、お客様により良いショッピング体験を提供できるだろうと提案しました。そこで私たちはそれを実行に移しました。Generative AI を広告に応用したのです。ここで、同僚の Nikhil に、その方法についての説明をしてもらいましょう。

Amazon AdsのGenerative AIソリューション:Image Generatorの開発

Thumbnail 540

ありがとう、Gary。皆さん、こんにちは。re:Invent へようこそ。皆様が素晴らしい時間を過ごされていることを願っています。私は Nikhil Nanivadekar で、Amazon Ads の Creative Tech 部門の Principal Engineer です。本日は、Amazon Ads のお客様向けの Generative AI ソリューションの進捗状況についてご紹介できることを嬉しく思います。これまでの道のりは素晴らしく、とてもエキサイティングな場所にいられたことを実感しています。技術面と科学的な進歩の両方について、詳しくお話ししたいと思います。この1年間で、私たちは企業が広告のファネル全体でAIを活用してパフォーマンスを向上させている様子を目にしてきました。

Thumbnail 550

Thumbnail 590

見ていきましょう。これは皆さんにもお馴染みのものでしょう。Amazon で検索する時、 この例では、メンズシューズやランニングシューズを検索すると、検索結果が表示されます。注目すべき点がいくつかあります。商品画像が表示され、タイトルが表示され、Prime の表示、星評価などが表示されます。私たちは、ショッパーの皆様が購入の判断に必要な重要な情報をすべて簡単に得られるように工夫しています。次に商品詳細ページですが、これは典型的な商品詳細ページで、 画像があり、商品名やタイトル、価格、Prime の表示などがあります。そして星評価もあります。

Thumbnail 630

Thumbnail 650

理想的な商品詳細ページは、説明的なコンテンツ、ブランドストーリー、そして正確で重複のない情報を通じて、これらの購入の障壁に対応します。商品を明確に示す、インパクトのある高解像度の画像も含まれています。 私たちは、オンラインとオフラインの両方で商品とやり取りするショッパーとの関わり方が複数あるため、コンテンツギャップ、つまりクリエイティブの障壁があることを特定しました。 意味のある注目と関与を引き出すためには、ブランドに沿っているだけでなく、タイムリーで関連性のあるビジュアルを提供する必要があります。

Thumbnail 660

Thumbnail 690

しかし現実には、タイトなスケジュールとリソースが大きな課題となっています。タイミングだけの問題ではありません - 視覚的に魅力的なアセットを作成するのは高額で、特定の専門知識が必要です。このような視覚的に印象的なアセットを作れる人は限られています。 さらに、同じものを繰り返し見せられる古いコンテンツは、ショッパーの心に響きません。季節に合ったコンテンツが必要です。例えば、クリスマスホリデーシーズンが近づくにつれて、その時期により関連性の高いコンテンツを表示し始める必要があります。1年を通じて12ヶ月それぞれに、異なるテーマを必要とする様々な季節があります。

Thumbnail 750

Thumbnail 760

Thumbnail 770

Thumbnail 780

私たちはこれをチャンスとして認識し、広告主の方々からもサポートを求められていました。お客様のニーズから逆算して、昨年何を実現したのでしょうか? ブランドがゼロから画像を作成できる、シンプルで簡単な方法を導入しました。これをImage Generatorと呼んでいます。 動画でご覧いただけるように、広告主の方々はキャンペーンを作成する際にこれを利用できます。 必要なのは、商品を選択し、ボタンをクリックするだけでAI生成画像のオプションを選ぶことです。 バックグラウンドでは、実際の商品を識別し、広告主向けに4つの魅力的な画像を生成します。広告主はそのうちの1つを選んで、ボタン一つでキャンペーンに使用することができます。

Thumbnail 790

Thumbnail 800

数秒で準備が整い、お客様のショッピング体験の中で表示されます。 では、Garyが言及したように、これは300レベルのセッションですので、技術的な詳細に踏み込んでみましょう。どのように実現したのか見ていきましょう。広告主はAmazon Adsコンソールからアクセスします。ルーティングにはAPI Gatewayを使用しています。商品を選択すると、必要な商品情報を取得し、入力がある場合はそれも使用します。Image Generator推論ステップによって出力が生成され、広告主に表示するさまざまな画像が作成されます。

Thumbnail 870

ここで皆さんは「それは概要すぎる。もっと面白い部分を見せてほしい。具体的に何をどうやったのか?」と思っているはずです。多くの方がうなずいているのが見えますので、詳しく説明していきましょう。 これがそのプロセスで、ワークフロー全体をご説明します。一見すると多くのステップがあるワークフロー図に見えますが、まさにその通りです。私たちは本番環境にデプロイする必要のあるモデル群を開発し、広告主に表示するこれらの素晴らしい画像を生成するために、特定のタスクを実行する個別のステップが必要だと判断しました。例えば、上から始めると、Product Salient Feature Extractionがあります。先ほど見たように、広告主はプロンプトを入力せずに商品を選択するだけだからです。

Thumbnail 950

Amazonの商品詳細ページから商品情報を使用して、重要な特徴を抽出します。先ほどのエナジードリンクの例では、関連するすべての側面と商品の具体的な効果を特定します。その下のレベルにあるのがProduct Image Selectionで、詳細ページで利用可能な商品画像を選択します。 商品が用意できたら、実際の商品の前面と背景を分離する必要があることに気付きました。Amazon SageMakerにデプロイされたComputer Visionモデルを使用して、この分離を実行します。

このプロセスにより、重要な特徴、宣伝したい実際の商品、そして広告主からの入力を収集できます。これらはすべて、Foundation Modelに入力される情報もコンプライアンスに準拠していることを確認するため、Responsible AI Guard Railsを通過します。フィルター後の次のステップは、自動プロンプト生成のための微調整されたLLMです。これは重要な特徴、広告主の入力、商品画像を取り込んで、画像生成に使用するコンセプトやシーンを構築します。このように、広告主がプロンプトエンジニアリングを必要としないよう簡素化しました。これらの入力は、出力を得るためにText-to-Image生成モデルに送られます。

Thumbnail 1040

ご覧いただいたように、私たちは広告主向けに複数の画像を提供しています。 これを実現しているのが、N個のプロンプトを生成するPrompt Generatorです。各プロンプトからM個の画像が生成され、その結果としてM×Nのカーテシアン積が得られます。これにより、多様性を確保し、複数の画像を生成することができます。これらの画像は必要な解像度や仕様を満たすようにアップスケールされ、その後Responsible AIのガードレールを通過します。そして、最良の画像を選んで広告主に提供しています。

Thumbnail 1080

ここまでどのように辿り着いたのか疑問に思われるかもしれません。答えは一言です:プロトタイピングです。2023年から、私たちはこれらのモデルのプロトタイピングと反復的な開発を開始しました。科学者たちが様々なモデルを特定して使用し、良し悪しを判断し、それに応じてパラメータを調整していきました。Amazon SageMakerは推論フローの中心的存在で、科学者たちはプロトタイプモデルをレジストリに登録しました。モデルが十分な性能に達したと判断すると、テスト用エンドポイントを通じてAmazon S3バケットに画像を生成できるようにしました。画像は本質的に主観的なものなので、人による評価を通じて、大規模に良し悪しを判断する必要がありました。そのためにAmazon SageMaker Ground Truthを活用しました。

Thumbnail 1190

この反復的な開発により、先ほど詳しく説明したワークフローが確立されましたが、それだけではありません。先に述べたように、Responsible AIは重要なステップの1つであり、私たちは最初からそこに投資してきました。このワークフローは、これらの対策によって両端が守られています。

Thumbnail 1210

Thumbnail 1230

このような構築方法により、これらのビルディングブロックを私たちのすべてのサービスで再利用することができます。Responsible AIはワークフローの重要な部分であり、プロセスの両端にフィルターとして実装されています。

私たちは、Responsible AIの仕様の各側面に対して、重要なビルディングブロックの組み合わせが必要だと気づきました。Amazon Bedrock Guardians、Amazon Rekognition、Amazon Comprehend、そして独自のルールベースフィルターを細かな制御のために使用しています。Amazon Bedrock Guardiansは機密性の高いコンテンツを検出するのに役立ち、関連性のない、使用すべきでないトピックを定義することもできます。Amazon Rekognitionブロックは、不適切なコンテンツの検出、許可されていないカテゴリに対するアセットの分類、有名人の検出に役立ちます。Amazon Comprehendは個人情報の検出を支援し、独自のルールベースフィルターはさらに細かな制御を提供して、特定の要素の許可・不許可を確実にします。これらすべてのコンポーネントの組み合わせが、私たちのResponsible AIサービスを形作っています。

Purpose-builtからスケーラブルなソリューションへの進化

Thumbnail 1340

画像生成のワークフローについて見ていきましょう。これが私たちが構築したシステム全体です。私たちは目的に特化したソリューションとして構築しました。なぜなら、プロトタイプを作成し、学び、そして非常に速いペースでお客様の前に提示したかったからです。2023年10月に開催された年次カンファレンスのUnboxで発表し、広告主向けに画像生成機能をローンチしました。その後、このPurpose-builtフレームワークは初期のプロトタイピングと本番フェーズには優れていましたが、提供機能をスケールさせる必要があることに気づきました。

Thumbnail 1400

Thumbnail 1460

2024年には、より多くの広告主にこの機能を採用してもらいたいと考えていました。コンテンツの障壁に対処するためには、季節に応じた関連性の高い画像を大量に生成し、広告主のために準備しておく必要があることに気づきました。特定のシーズンが近づいてきた際に、広告主がクリエイティブコンテンツを更新できるよう、レコメンデーションを提供したいと考えていました。これはPurpose-builtソリューションでしたが、単一の広告主向けフローからバルクフローへの移行のために、システム全体を書き直す必要はありませんでした。代わりに、AWSのマルチアカウント戦略を活用しました。

Thumbnail 1470

Thumbnail 1480

Thumbnail 1500

この戦略により、オンラインとオフラインのワークロードを分離することができ、 必要だったのは、広告主向けのオンラインフローとオフラインフローのプロセスを区別するための小規模なAPI変更だけでした。 これにより、独立したスケーリングコントロールが可能になり、トラフィック量が増加するピーク時に特に重要となり、インフラストラクチャの使用を最適化することができました。

Thumbnail 1520

Thumbnail 1530

Cloud Development Kit (CDK)により、再現可能な環境が提供され、これらの小規模なAPI変更を実装し、新しいAWSアカウントを作成してそこにデプロイするだけで済みました。それほど簡単なのです。 2023年に私たちは反復的で迅速なプロトタイピングから journey を開始しました。Amazon SageMakerは 私たちの推論プラットフォームの中心的な部分でした。Amazonは無限のリソースを持つ巨大企業だと思われるかもしれませんが、実際はそうではありません。私たちはスタートアップのように運営しており、Two-pizzaチームモデルも迅速な行動を可能にしています。

Thumbnail 1580

小規模からスタートしましたが、大きな目標を持っていました。プロトタイピング中は、SageMakerエンドポイントを直接デプロイし、他の提供機能へのスケーリングを目指しながらも、ソリューションをお客様の前に出すためのAction biasを確保しました。私たちは最初からResponsible AIを基盤として投資してきました。 プロトタイプでは、複合モデルとワークフローが単一のワークフローモデルよりも優れた結果をもたらすことが示されました。

Thumbnail 1600

Thumbnail 1640

それでは、私たちの歩みを振り返り、これまでの成果を見ていきましょう。 これは2023年第1四半期に、私たちのモデルとワークフローが生成していた出力です。「土の中の使い古された野球ボールのクローズアップショット」というシンプルなプロンプトに対して、このような出力が生成されていました。確かに野球ボールで、土も存在しますが、個人的には、この出力は入力に対して十分な表現ができていないと思います。この1年で、私たちの技術と科学は急速に進化しました。同じプロンプトに対する現在のモデルの出力がこちらです。 野球ボールは本物のように見え、土も本物らしく、摩耗も実際のように見えます。これは、私たちがこの journey で超高速に進歩し、技術と科学が驚くべき進化を遂げていることを示しています。

Thumbnail 1670

Thumbnail 1690

別の例も見てみましょう。シンプルなプロンプト「手すりの上に3つのオレンジがあり、背景に沈む夕日がある」の場合です。 3つのオレンジは確かにありますが、手すりの上に浮いているように見え、太陽も存在していません。これを見ると思わず笑ってしまいます。しかし現在のモデルでは、 よりリアルな出力を生成できます。3つのオレンジは手すりの上に適切に配置され、背景には沈む夕日と木のシルエットが見えます。より現実味のある表現となっており、技術と科学の進歩とともに、私たちがどれだけ進化してきたかを示しています。

Thumbnail 1730

Thumbnail 1770

そこで私は考えました。これ以上のことはできないのか、テキストから画像を生成するだけなのか、と。私たちは常にお客様のために革新を追求し、新しいものを生み出したいと考えています。そこで、さらなる一歩を踏み出しました。 広告主向けに画像を作成する中で、それらに小さなアニメーションを加えて生命を吹き込むことを考えました。このスパの設定では、背景にちらちらと揺れるキャンドルがあることにお気づきでしょうか。このような繊細なアニメーションを加えることで、お客様に素晴らしい体験を提供できます。しかし、それだけではありませんでした。このユースケースにおいて、 私たちの技術と科学の限界をどこまで押し広げられるか試してみたかったのです。ご覧のように、カメラがパンし、ラベンダー畑がわずかに揺れ動いています。

Thumbnail 1800

私たちは、ショッパーと広告主の皆様を魅了する方法を探求し続けました。カメラの動きがコンテンツへの没入感を高めているのがわかります。何が起こっているのかもっと見たくなるような効果があります。そして、 カメラのパンができるなら、ズームインもできるのではないかと考えました。そして、それも実現しました。このように、私たちはイノベーションを次のレベルへと引き上げています。この革新は、AIが生成した画像にモーションを追加することを可能にした Generative AI によって実現されました。

Thumbnail 1840

今年初め、私たちは Live Images と呼ぶ機能をリリースしました。これは、AIを活用して標準的な商品写真に微妙なカメラの動きやパララックス効果を加え、生命を吹き込む新機能です。その仕組みは、AIが生成した画像を取り込み、ボタンをクリックするだけで、 さまざまなカメラの動きと微妙な奥行き効果を追加するというものです。

宣言的ワークフローによる開発プロセスの革新

Thumbnail 1850

音楽を聴きながら波が打ち寄せる海辺でも、のどかな野原でこれから楽しむ温かいコーヒーでも、そよ風に揺れる花束でも、天の川を眺めたい夜空愛好家のためでも - 私たちはすべてに対応できます。どのようにしてそれを実現したのか知りたいですか?いいですね、Gary、彼女に説明しましょうか?はい。

Thumbnail 1890

Thumbnail 1900

Thumbnail 1920

これは皆さんがすでにご存知のアーキテクチャです。画像生成のアーキテクチャですね。ここに私たちはいくつかのステップを追加しました。 深度を追加してビデオフレームを生成する新しいステップを加えました。そして、使用した画像からビデオへの変換モデルもあります。非常にシンプルですね。思い出していただければ、私たちには目的に特化した画像生成アーキテクチャがあり、 そこにいくつかの構成要素を追加することで、ライブ画像生成が可能になりました。

Thumbnail 1930

Thumbnail 1940

これが私たちのスタート地点で、 そこにいくつかのステップを追加しましたが、それだけではありませんでした。私たちはさらに 画像生成自体の機能も拡張したいと考えていました。広告主の皆様に画像編集機能を提供したかったのです - 製品の位置を変更したり、画像内で製品のサイズを変更したり、時には生成された画像の特定の要素を変更したりできるようにです。そのため、画像編集機能も実装することにしました。

Thumbnail 1970

画像編集の方法としては、広告主から編集プロンプトを受け取り、既存の画像を提供してもらい、 そしてLLMを使用してこれらのプロンプトを拡張します。プロンプトを拡張する理由は、広告主の意図を確実に捉え、生成される出力が実際に彼らが望んでいたものになるようにするためです。私たちの目標は広告主にとってできるだけ簡単にすることです - 彼らがプロンプトエンジニアリングを行う必要はないのです。

Thumbnail 2000

Thumbnail 2010

このように、プロンプトを拡張してから編集モデルに渡します。編集モデルは 出力を生成します。このようにして、広告主に新しい機能を提供することができます。私たちがどこからスタートしたかがお分かりいただけると思います - 画像生成のワークフローにいくつかのステップを追加するのは簡単でしたが、これは異なるワークフローでした。目的に特化したソリューションから始めましたが、進化が必要で、しかも非常に高速な進化が求められました。なぜなら、これらのソリューションを開発と同時に可能な限り早くお客様に提供したかったからです。

これらのワークフローは一見似ているように見えますが、それぞれ異なっています。そのため、単純にステップを追加したり、簡略化したり、既製のソリューションを再利用したりすることはできませんでした。そこで私たちは、プロトタイプから本番環境へのプロセスをどのように改善できるか検討しました。実は私は機械工学の学士号と修士号を持つ機械エンジニアで、現在はソフトウェアを書いています。以前はロボットの製作とプログラミングを行っていました。その経験で学んだことの一つが継続的改善についてです。プロセスの継続的改善を行うには、基本に立ち返り、何が起きているのかを詳しく調べ、改善方法を見出す必要があります。私たちが行ったのはまさにそれでした。

Thumbnail 2140

私たちは、ワークフローとモデルをプロトタイプから本番環境に移行する方法を特定しました。サイエンティストたちはノートブック上でプロトタイプを作成し、Amazon SageMaker上にデプロイしていました。モデルはSageMaker Registryで利用可能になり、準備が整うと別のエンジニアグループと連携を始めることになります。 エンジニアとサイエンティストは、何をする必要があるのか、モデルをどのように解釈するのかについて、意見を交換しながら理解を深めていきました。

Thumbnail 2190

他人のコードを見て「これは一体何をしているんだろう?」と思ったことがある人はどれくらいいますか?ほとんどの人がそうですよね?時には自分が数ヶ月前に書いたコードを見て「あの時何をしようとしていたんだろう?」と思うこともあります。そして今、私たちは素早いイノベーションを目指していましたが、このプロセス、このやり取りは単に重複しているだけでなく、バグが発生しやすいものでした。なぜなら、「翻訳による意味の取り違え」という問題が非常に重要だったからです。エンジニアたちは、サイエンティストの説明とコードから読み取れる内容に基づいてワークフローを再定義し、 必要なリソースを確保してデプロイするために必要なオーケストレーションを実装していました。

Thumbnail 2240

ご覧の通り、これは全体的に時間がかかり、バグが発生しやすいプロセスでした。そこで私たちは「何ができるだろうか?」と考えました。私たちはAmazonであり、迅速なイノベーションを確実に実現したいと考えています。私たちはスタートアップのように活動しています。そこで、「プロセスを簡略化できないだろうか?」「開発プロセス全体を合理化できないだろうか?」と考えました。 もしサイエンティストたちが、デプロイ方法やリソースの取得方法を気にすることなく、直感的で再現可能な環境を手に入れることができれば、同じことを何度も繰り返す必要がなくなり、自分たちのプロトタイプを本番環境用に改良して本番環境にシップする方法を正確に把握できるはずです。

Thumbnail 2320

Thumbnail 2330

そこで私たちは簡略化されたプロセスを考案しました。カスタムSDKを構築し、ご覧のようなWorkflowやTaskなどの新しいアノテーションを導入しました。これにより、サイエンティストは宣言的な方法で作業できるようになりました。宣言的とは、サイエンティストは何をしたいかを宣言するだけでよく、それがどのように実現されるかを気にする必要がないということです。バックグラウンドで処理されることを前提に、以前見たような一連のステップ全体がワークフローとなりました。自分たちの環境のノートブック上で構築し、そのまま展開できるようになったのです。エンジニアたちはそのカスタムSDKを使って、ブループリントを定義し、AWS Lambdaを構築し、オーケストレーターを構築する方法を見出し、ワークフロー、タスク、イベントの順序全体を解釈できるようにしました。

Thumbnail 2350

Thumbnail 2360

そうすることで、本質的にワークフローグラフが作成されます。このワークフローグラフは、オーケストレーターが実行すべきステップを確定的に理解するために使用されます。そして最終的に、ワークフローステップに基づいて、Amazon Bedrockや、AWS Lambda、Amazon SageMakerなどの必要なリソースが呼び出されます。このように、宣言的な方法で構築されたワークフローが動的に生成され、AWSで確定的に実行されるのです。すごいと思いませんか?素晴らしいですよね?

Thumbnail 2390

実際に宣言的ワークフローの例を見てみましょう。先ほど見たライブイメージを生成するワークフローを覚えていますか?これがメソッドの定義です。とてもシンプルですよね?入力があって、返り値として生成されたライブイメージが返されます。

Thumbnail 2410

あとは空欄を埋めていくだけです。製品情報が必要ですね。はい、これでステップの1つが完了です。この方法の素晴らしい点は、タスクを1回だけ実行すればいいということです。

Thumbnail 2430

Thumbnail 2440

入力された画像を処理して、別のステップを実行し、ライブイメージを生成して、必要に応じて画質を向上させて返します。注目していただきたいのは、現在よく見かける冗長なボイラープレートコードが一切ないということです。これはプレゼンテーションでスペースを節約したかったからではなく、実際にこのようにシンプルに実装しているからなのです。

Thumbnail 2460

ステップの1つ、例えばライブイメージの生成を見てみると、そのステップ自体に必要なパラメータがすべて含まれています。使用するモデルを把握しており、必要な入力がすべて揃っていて、モデル自体で呼び出しが行われます。このモデルは、Amazon SageMakerで何かを呼び出す必要があるのか、Amazon Bedrockを呼び出す必要があるのか、別のAWS Lambdaエンドポイントを呼び出す必要があるのかを把握しています。これにより、再利用も可能な宣言的な方法でこれらの機能を構築することができるのです。

Thumbnail 2490

「でも裏側では、環境のために何かしら作業が必要なのでは?」と思われるかもしれません。はい、確かにその通りですが、必要なのは最小限の環境セットアップだけです。この方法の素晴らしい点は、セットアップを一度行えば済むということで、ワークフローごとに毎回行う必要がないことです。例えば、この最小限の環境セットアップでは、初期化 - つまり、DEV、QA、本番環境のどの環境にいるのかを理解するような単純な作業 - は非常に簡単に行えます。名前の変更や調整が必要な場合でも、一度だけ行えば良く、一貫性を持って実施できます。

Thumbnail 2550

Thumbnail 2570

呼び出しも非常に簡単で、リアルタイムで呼び出すだけです。 ここでは、スペースの都合上、非同期呼び出しは示していませんが、イメージはつかめると思います。非同期の場合も同様に簡単で、非同期で呼び出して、ステータスチェックのためのポーリングを行うだけです。 私たちのリアルタイム呼び出しは実に単純明快です。AWSが提供するB23のようなランタイムクライアントを使用しています。デプロイメントのたびにボイラープレートコードを書き直す必要はありません - すべてが抽象化され、呼び出しに必要な作業はすべてカプセル化されています。

科学者たちは、ワークフローの構築、それらがどのように連携しているかの理解と特定に集中するだけでよく、ローカルシステムでの動作が本番環境でも全く同じように機能することを確信できます。素晴らしいと思いませんか?うなずいている方々が見えますね。これは、エンジニアとイノベーターとしての私の心を本当に喜ばせてくれます。

Video GeneratorとAI Creative Studioの導入

Thumbnail 2640

Thumbnail 2680

この方法論を使用して、 私たちは実際にサービスの提供範囲を拡大しました。最初は画像生成だけでしたが、編集、ライブ画像生成、画像と商品のリサイズ、スタイル、テーマなどを追加することができました。しかし、私たちはさらに可能性を追求しました - AIの境界を押し広げ、顧客に代わって新しいものを生み出せないだろうかと。そこで、画像生成と全く同じように、広告主が商品を選択するだけで画像を生成できるVideo Generatorを立ち上げました。

Thumbnail 2690

Thumbnail 2700

ご覧のように、広告主は商品を選択し、AI生成ビデオを選ぶオプションが与えられます。 裏側では、AIが商品の特性を理解し、重要な特徴を定義し、商品を理解して、生成すべきシーンを決定します。

Thumbnail 2720

Thumbnail 2740

また、広告主は見出しも入手できます。必要に応じて見出しを更新することができ、数分で動画を作成して提出することができます。どのようにしてこれを実現したのか、ご興味はありますか?私のプレゼンテーションには一貫したテーマがあることがお分かりいただけると思います。私たちはLive Image Generator のアーキテクチャを拡張し、先ほどご覧いただいたような様々な動画を生成するためのワークフローを追加しました。その1つがText-to-Videoモデルです。

Thumbnail 2760

Thumbnail 2780

私たちはText-to-ImageモデルとImage-to-Videoモデルを実装し、それらの動画をアップスケールすることも行いました。これにより、これらの様々な動画を並行して生成できるようになりました。また、見出しの生成も行っています。というのも、先ほどご覧いただいたように、広告主は最初から見出しを入力する必要がないからです。必要に応じて編集することはできますが、基本的に私たちが対応しています。見出しと様々な動画を組み合わせることで、動画を生成できるようになりました。

Thumbnail 2800

Thumbnail 2840

Thumbnail 2850

これらの様々な動画と見出しは、AWS Fargateで実行されている動画レンダラーに送られます。様々な動画と見出しを組み合わせたペイロードの処理に関して、Fargateでの実行がより良い成果を上げることがわかりました。昨日、Andy JassyがAmazon Novaを発表したことを覚えていらっしゃいますか?私たちはまさにこれを使って動画を生成しています。Text-to-Videoモデルは6秒の動画を生成し、それを広告主に提供することができます。

Thumbnail 2870

Thumbnail 2890

re:Inventに向けて、私たちは動画を用意しました。これはパスタブランドの広告のためにモデルが生成した、パスタの幻想的な世界の例です。これは、パスタブランドを宣伝するためにモデルが作成した、楽しくてクリエイティブなストーリーです。カンノーリがフェンスになり、ミートボールが仕切りになっているファンタジーなパスタの村を、誰が思いつくことができたでしょうか?モデルは既に印象的ですが、これからさらに進化していくことでしょう。

Thumbnail 2930

Thumbnail 2950

Thumbnail 2960

今年初めに、AI Creative Studioをローンチしました。ここでは、広告主が広告を構想し、生成し、リフレッシュできるこれらの機能をすべて1つの場所に集約しています。広告主がStudioにアクセスすると、自分の商品写真を選択し、AIに異なるコンセプトの生成を依頼することができます。提供された商品に基づいて、様々なコンセプトを提供します。その後、最も気に入ったものを選ぶことができます - この例では、Zenにインスパイアされたものが選ばれています。

Thumbnail 2970

Thumbnail 2980

Thumbnail 3000

私たちは広告主にCreative Dialを提供しており、これを使って画像を調整することができます。もし少し調整しすぎた場合は、 元に戻すことができます。ボタンをクリックするだけで、その場でライブにしたり、動画を生成したりすることができます。すべてがうまく組み合わさっているのは素晴らしいと思いませんか?ちなみに、 ビーチでコーヒーを飲んでいるような画像も想像できますよね。とてもクールですよね?

かなりクールだと思います。皆さんがうなずいているのを見て、私だけが興奮しているわけではないことがわかって嬉しいです。これは本当に素晴らしいことです。エンジニアとして、そしてイノベーターとしての私の中の情熱が、私たちがここまで来たことを見て非常に興奮しています。そしてこれからもっと良くなっていくでしょう。これらすべてのローンチを完了し、これらの機能を構築した今、ビジネスにどのような影響を与えたのかを見てみましょう。

Generative AIソリューションの成果と学んだ教訓

Thumbnail 3050

Thumbnail 3060

Thumbnail 3070

Thumbnail 3090

Thumbnail 3100

Thumbnail 3120

AI搭載のCreative Solutionsを使用したブランドは、平均して 5倍多くの商品を広告していることがわかりました。また、広告商品1つあたりの使用画像数が、 使用していないブランドと比べて2倍になりました。これにより、キャンペーンを拡大・展開し、新しい戦略を試すことができました。 AIで生成されたクリエイティブソリューションを使用した広告主は、広告支出に対するリターンが17%増加しました。 Sponsored BrandキャンペーンでAI生成画像の使用を開始した広告主は、カスタム画像を使用しない場合と比べて、平均で8%高いCTR(クリック率)を達成しました。 Image Generatorを使用し始めた広告主は、使用しなかった広告主と比べて、採用後の売上が平均で4%以上増加しました。最後に、Sponsored BrandでImage Generatorを使用した広告主は、 広告キャンペーンを88%多く作成しました。

Thumbnail 3150

Thumbnail 3160

Thumbnail 3170

これは、私たちが構築しているイノベーションとツールが、実際に広告主とユーザーにインパクトを与えていることを示しています。これにより、いくつかの重要な洞察が得られました。私たちのGenerative AIソリューションは、広告主による クリエイティブな実験への反復的でアジャイルなアプローチを促進しました。彼らは、 購入者のモチベーションとニーズを反映した効果的な広告キャンペーンを構築することができ、最後に、Generative AIは、視覚的に印象的な広告を構築できることで、提供価値をさらに向上させ続けています。

Thumbnail 3190

私たちの journey の中で学んだ重要なポイントと教訓をいくつか皆さんにお伝えしたいと思います。これが最後から2番目のスライドです。 これらは一般的な内容なので、Generative AIソリューションに限らず、どのようなデプロイメントにも適用できます。1つ目は、オフラインとオンラインの呼び出しを分離することが重要だということです。独立したスケーリングコントロールを確保し、レイテンシーが高くなる可能性のある一括処理が広告主のフローにあるプロセスをブロックしないようにする必要があります。SDKの作業モデルは重要なイノベーションでしたが、これは基本に立ち返り、私たちの作業方法を正確に特定することで実現しました。それらのボトルネックを特定することで、それらを排除することができました。

これにより、2つの異なるグループ間で作業を分離することができ、高速で本番環境にデプロイできる反復的なプロトタイピングが可能になりました。プロトタイピングに関して言えば、AWS Lambdaは私たちにとって非常に素早くプロトタイプを作成し、テストし、改善することができました。また、アイドル時間を避けてリソースの使用を最適化するため、Lambdaを非同期で使用しました。長時間実行されるプロセスや、より大きなメモリフットプリントを必要とするプロセスにはAWS Fargateを使用しました。最後に、私たち全員が受け入れるべき最も重要なルールは、モデルを含むすべてが進化している以上、インフラの変更は必要不可欠だということです。ただし、各変更はステークホルダーに対して透明性を保つことが重要です。どんなに小さな変更でも反映に時間がかかってはいけません。そのため、必要なインフラの変更であっても、常にステークホルダーに対して透明性を確保するようにしてください。

私のセッションとGaryのセッションに参加していただき、本当にありがとうございました。アンケートの評価とフィードバックをお忘れなく。皆様からのフィードバックは、私たちのコンテンツをより良いものにするための大切な手がかりとなります。ありがとうございました。


※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。

Discussion