re:Invent 2023: Amazon SageMaker Ground Truthでfoundation modelを改善
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
📖 AWS re:Invent 2023 - Improve FMs with Amazon SageMaker human-in-the-loop capabilities (AIM334)
この動画では、Amazon SageMaker Ground Truthを活用したfoundation modelの改善方法が紹介されます。Amazon、AWS、Krikeyの専門家たちが、human-in-loopの重要性や、テキストランキング、質問回答生成、画像・動画キャプション作成などの具体的な機能をデモで解説します。特に注目なのは、Krikey AIが3Dアニメーション制作を民主化するためにGround Truthを活用し、わずか3か月でfoundation modelを市場投入した事例です。AIによる創造的なコンテンツ制作の最前線が垣間見える内容となっています。
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。本編
Amazon SageMaker Ground Truth: Human-in-Loop AIの紹介
Romi Datta と申します。Amazon SageMaker のプロダクトマネージャーをしております。本日は、人間参加型の機能を活用して foundation model をどのように改善できるかについて、同僚の Amanda Lester と、Krikey AI の CTO である Ketaki Shriram とともにお話しさせていただきます。
この会議を通じて、皆さんは generative AI と foundation model に関する繰り返しのテーマをご覧になったことでしょう。foundation model は generative AI の核心部分です。そこで、foundation model に私たちを紹介してもらうのはどうかと考えました。
登壇者の自己紹介とプレゼンテーションの概要
Romi Datta です。AWS Human-in-Loop AI/ML Services の Product、Growth、Operations 部門の責任者を務めています。本日は、foundation model の構築、運用、使用における課題や、それらの課題を解決するための human-in-loop AI/ML サービスの必要性、そして Amazon SageMaker Ground Truth を通じて AWS がどのようにサポートできるかについてお話しします。
皆さん、こんにちは。Amanda Lester と申します。AWS Human-in-Loop AI/ML Services のグローバル GTM 戦略責任者を務めています。generative AI のユースケースに向けた最新の機能強化についてライブデモをお見せできることを楽しみにしています。
こんにちは、Ketaki Shriram です。Krikey AI の最高技術責任者を務めています。本日は、Amazon SageMaker Ground Truth を使って AI アニメーション foundation model をトレーニングした方法をご紹介します。
Human-in-Loopの概念と基盤モデルにおける重要性
すごかったですね? これから、Krikey AIのツールとSageMaker Ground Truthのhuman-in-loop機能を使って、これらの動画が数分で生成された方法について学んでいきます。
今日のお話では、機械学習におけるhuman-in-loopについて議論し、そこでの課題と、SageMaker Ground Truthがどのようにそれらを解決できるかを見ていきます。Amandaが主要な機能をデモンストレーションし、その後、Krikeyの成功事例を聞いて締めくくります。
human-in-loopについて話すとき、特にAIの分野では決して新しい概念ではありません。従来、AIのための非構造化データのラベリングにhuman-in-loop機能が必要でした。基盤モデルの世界では、モデルを評価するための人間の判断や、データ収集、データ生成、そして教師あり微調整(instruction-tuningとも呼ばれます)のためのhuman-in-loopが必要です。
従来のディープラーニングモデルとFoundation Modelの違い
基本的に、問題は次のようなものです。従来のディープラーニングモデルでは - 数年前のものを今日「従来の」と呼ぶのは面白いですが、それだけAIの分野の進歩が速いということですね - 入力データ、つまり生データから始めます。これは画像やテキストなどかもしれません。そして、車や一時停止の標識、その他の物体の周りに境界ボックスを配置するなどのラベリングを行います。そのラベル付きデータを使ってモデルを訓練し、デプロイします。
モデルのパフォーマンスを評価した後、人間がラベルの一部を調整したり、ラベルを追加したり、編集したりします。そして再びモデルの微調整を行います。このプロセスは、モデルが本番レベルに達し、本番アプリケーションで推論のためにデプロイできるようになるまで、繰り返しループで続きます。
このプロセスは、時間がかかり、コストがかかり、そしてもちろん人間が介在するため労働集約的でした。そして、今でもその状況は変わっていません。
Foundation Modelの特徴と課題
しかし、foundation modelの登場により、状況に変化が生じました。foundation modelは、従来のディープラーニングモデルとは根本的に異なります。ディープラーニングモデルがラベル付けされた、あるいはアノテーションされたデータで学習され、特定のタスクに使用されるのに対し、foundation modelはtransformer architectureに基づいており、一般的に非常に大規模なサイズを持っています。
大規模とはどういう意味でしょうか?foundation modelの主要なタイプの一つである言語モデルは、数百億から数千億のパラメータを持ち、場合によっては1兆を超えるパラメータを持つこともあります。動画モデルはおそらくもう少し小さいでしょう。これらのモデルは、インターネットソースや企業のデータベースから得られる大規模な未ラベルデータで学習されます。これらのfoundation modelは、テキスト入力であるプロンプトを通じてユーザーとやり取りし、特定のタスクに対する応答を提供します。
このデータで学習すると、他の分野や主題に関する質問に答えるコンテキストを持つようになります。これは、データのラベリングやアノテーションにおける人間の関与の必要性を排除する解決策のように見えるかもしれませんが、それは完全に正確ではありません。
Foundation Modelにおける包括的なHuman-in-Loop機能の必要性
基盤モデルには、より包括的な人間介在型(Human-in-Loop)、つまりHILの機能が必要であることが分かってきました。インターネットや企業のデータベースから大量のテキスト、画像、動画を使ってモデルを訓練するプロセスは、科学者たちによってベースモデルの事前学習と呼ばれています。ベースモデルの事前学習が完了すると、そのモデルは多くのコンテキストを持ち、様々なトピックについて質問に答えることができるようになります。しかし、そのモデルが正確に回答しているかどうかを判断する必要があります。
これを行うために、モデルの評価を行います。この評価は、単に正確さだけでなく、他の側面についても行われる可能性があります。評価の後、モデルの微調整のプロセスに進みます。
モデルの微調整やカスタマイズは、複数のステップで行うことができます。一つのステップでは、人間が生成したデータを使用して教師あり微調整を行います。これを科学者たちはデモンストレーションデータと呼んでいます。言語モデルの場合、人間のフィードバックによる強化学習(RLHF)と呼ばれる別の種類の微調整も行うかもしれません。
RLHFは、入力を適用し、毒性や正確性などの特定の側面に基づいて応答をランク付けし、そのランク付けされた出力を使用してモデルを再度微調整することを含みます。RLHFに使用されるデータは、preference dataと呼ばれます。このモデルのカスタマイズプロセスは、特定のビジネスユースケースに合わせてモデルが準備できるまで、繰り返し続けられます。
Foundation Modelの課題とHuman-in-Loopサービスの4つのカテゴリー
私たちは、foundation modelsにいくつかの課題があることを観察してきました。これには、特に金融サービスなどの分野でカスタマイズされたユースケースに既製のモデルを使用する場合の不正確さが含まれます。もう一つの問題は、モデルが有害なコンテンツを生成したり、ステレオタイプや偏見を増幅するコンテンツを生成する可能性があることです。さらに、foundation modelsには幻覚を起こす傾向があります。つまり、質問された内容と全く関係のない可能性のあるプロンプトや入力質問に対して、非常に自信を持った回答を提供することがあります。
Foundation modelのヒューマンインザループサービスは、大きく4つのカテゴリーに分類されます。デモンストレーションデータは、特定のユースケースに合わせてモデルを教師あり微調整するために使用されます。これには、言語モデル用の文書に基づいて生成された質問と回答のペアや、画像や動画のキャプションなどが含まれます。選好データは、プロンプトを適用し、レスポンスを収集し、毒性、正確性、有用性、またはその他の選択した次元に基づいてランク付けすることを含みます。
一部の顧客は、この選好ランキングデータを使用して、instructモデルと呼ばれる別の小規模なモデルを微調整します。このモデルは、メインモデルの選好ランキングを行うことができます。これは、Human Feedback付き強化学習(RLHF)を行うもう一つのアプローチです。モデル評価については、かなりの自動評価機能がありますが、トーンやブランドボイスなどの多くの主観的な基準については、依然としてヒューマンインザループが必要です。正確性についても、自動評価を行う前に、元のGround Truth、つまり正解が何であるかを最初に把握する必要があります。
評価の一部で、独自のカテゴリーに値するのがred-teamingです。これは、モデルの脆弱性を特定するためのストレステストです。有害なプロンプトに対して、モデルが無害または偏りのない出力を生成するよう試みることを含みます。アイデアは、実際の本番環境で問題が発生する前に、デプロイされるビジネスケースに投入する前にこのストレステストを行うことです。
Amazon SageMaker Ground Truthの機能と利点
これらすべてには大規模なヒューマンインザループが必要であり、ここでAmazon SageMaker Ground Truthが役立ちます。モデルの精度を向上させるための最も包括的なヒューマンインザループ機能を提供します。モデル評価から始めることになります。昨日、Amazon BedrockとAmazon SageMakerの両方でこの機能をリリースし、自動化されたモデル評価と大規模な人間による評価のワークフローを可能にしました。
Ground Truth は、教師あり微調整や RLHF を使ってモデルをカスタマイズするのに役立つデータを収集するためのワークフローを提供します。しかし、ワークフローを提供するだけではありません。データアノテーションのために作業員を大規模に増やす必要がある場合があるかもしれません。そこで私たちは、医療、法律、教師などの幅広い専門知識を持つ専門家チームを提供しています。これらの作業員を拡張して、データアノテーション、データ生成、大規模なモデル評価を行うことができます。
ワークフローと作業員を提供する際には、成果重視のサービスとして、品質とサービスの SLA を提供します。 モデルのカスタマイズのためのデータ提供において、お客様と協力してきた主な分野には、デモンストレーションデータの作成があります。お客様は自社の作業員を使用するか、私たちのワークフローと作業員を選択します。これらには、文書要約や、文書に対する質問と回答を生成するための直感的なワークフローが含まれます。質問と回答を素早く作成し、どの部分の文章や文書から質問と回答を得ているかを示すことができます。
また、画像や動画の大規模なラベリングを可能にする直感的な機能も提供しています。動画の設定や内容を指摘し、これらの質問フィールドに記入することができます。すべての項目に記入すると、動画のキャプションを書くのが非常に簡単になります。そして、これを数週間で何十万本もの動画にラベリングするような規模で行うことができます。
SageMaker Ground Truthのデモンストレーション:テキストランキングと質疑応答
選好データについては、プロンプトと応答を評価し、順位付けするためのワークフローを提供しています。通常のランキングや Likert スケールなどが可能です。次に、基盤モデルの評価については、Bedrock と SageMaker の両方で自動評価と人間による評価の両方を行う機能を提供しています。独自のモデルを持ち込んで、私たちと協力してモデルを評価したい場合も、その機能を提供しています。
私たちは、自動評価を通じて、堅牢性、有害性、精度などの重要な指標についての洞察を提供します。しかし、少なくとも近い将来においては、人間による評価が常に基盤モデルの評価の一部となることを理解しています。
これをサポートするために、大規模にプロンプトを与え、応答を評価するための直感的なインターフェースを提供しています。応答を評価するには、サムズアップ、サムズダウン、順位付け、リッカート尺度など、複数のオプションがあります。これを自社の専門チームに依頼したり、外部の作業者を使用したりする場合、AWS IDを必要とせずに評価を行うことができます。通常のメールアドレスを使用して、評価結果のダッシュボードを確認できます。
Red teamingの分析を行うための作業者とワークフローを提供することができ、多くのモデルレポートは、直感的なダッシュボードや、将来の使用のためにS3バケットで後から利用可能になります。モデル評価は一度きりのタスクではありません。これらすべてを定期的に行う必要があり、常に過去のモデル評価と比較することになります。特定のモデルを使用し、それを継続して使用することを決めた場合でも、更新があります。更新されたバージョンのモデルの使用を開始する前に、自社のプロンプトデータセットとビジネスユースケースを使用して、過去のバージョンと現在のバージョンの評価を実行することになります。
最後に、これはワークフローだけの話ではありません。専門家チームの場合、運用モードとしては、お客様が私たちと連携し、プログラムマネージャーを割り当てます。これは完全なサービス提供です。プログラムマネージャーはお客様から要件を受け取り、品質について承認を得て、お客様のユースケースにとって良質な品質とは何かを定義し、その後作業者を管理してデータアノテーションを提供します。これらには、Q&Aペア、無関係な選好ランク、画像キャプションなどがあり、品質SLAと納品SLAが付いています。週単位で納品することができ、一部のお客様には必要に応じて日単位で納品しています。
多くのユースケースでは、機密性が高かったり、特定の専門知識が必要だったりするため、プライベートに管理された作業者を使用したいと考えるでしょう。私たちはそのオプションも提供しています。また、タスクに選択できる10社以上のベンダーとも提携しています。さらに、必要に応じてAmazon Mechanical Turkの作業者を使ってタスクをクラウドソーシングすることも常に可能です。
ここで疑問が生じます。なぜSageMaker Ground Truthなのか?何が違うのか? その違いは、根本的には、品質の高いデータを大規模に提供するための3つのSにあります。1つ目はスケール(scale)です。ワークフローやワークフォースのラベリングにおいて、非常に簡単にスケールアップできるようにしています。数千人から数万人のデータアノテーターを、さまざまなスキルセットで拡張できます。スキルセットについて言えば、これらの人々はすでにAI/MLのユースケースに対してデータアノテーションや評価、質問応答の生成を行っています。彼らは外部のお客様だけでなく、TextractやAlexaなどの内部のAI/ML製品にも携わっています。
ワークフローを優先し、ワークフォースを含むフルサービスの取り組みでは、私たちのサイエンスチームがお客様と協力して、適切なデータアノテーション戦略についてアドバイスし、問題解決に向けて協力します。これはすべて非常に新しい取り組みであり、現時点では、お客様や社内のユースケースから日々多くのことを学んでいます。それでは、SageMaker Ground Truthの主要な機能のデモンストレーションをAmandaに引き継ぎたいと思います。
SageMaker Ground Truthを活用した画像・動画のキャプション付け
Amanda: ありがとう、Romi。今日は、デモデータや選好ランキングデータを作成する方法のライブデモの概要をお見せします。具体的には、ドキュメント、モデルからのプロンプトのテキストランキングの確認、そしてそれらの応答を人間の好みに応じてランク付けすることなど、さまざまなタイプのユースケースに対応します。また、SageMaker Ground Truthを活用して、画像や動画にキャプションを付ける方法もお見せします。今日は、広告会社のデータサイエンティストの役割を演じます。
私の広告会社には、ビジネスに不可欠なさまざまな種類のアセットがあります。すでにAmazon SageMaker Ground Truth内でいくつかのラベリングジョブを作成しており、それがどのようなものかをお見せします。では、画面を切り替えて、AWSコンソールに移ります。すでにAmazon SageMaker Ground Truthのラベリングジョブを作成しています。このジョブ内で、広告ビジネスに重要なすべての画像やアセットを保存しているAmazon S3の場所へのパスを提供しました。これには、事前に用意したドキュメント、画像、動画、そしてすでに入力したモデルからの応答が含まれています。また、ワークフォースから収集したアノテーション情報を保存したいAmazon S3の出力場所も設定しました。その後、その情報を使用してモデルの微調整とトレーニングを行うことができます。
Amazon SageMaker Ground Truthアプリケーション内に、新しい生成AIテンプレートが選択できるようになりました。 このテンプレートには、強化学習のための人間のフィードバックに使用されるテキストランキングを行う新機能が含まれています。これは、モデルからの応答をレビューし、それに応じてランク付けするために設定するワークフローです。また、ドキュメントをアップロードして質問と回答のペアを作成し、モデルに適切な応答方法を教えることができる新しいオプションもあります。私はすでにこれらの多くを設定しているので、ラベラーの視点からどのように見えるかをお見せします。
今、私はAWSコンソールではなく、ラベラーとしてログインしています。すでに設定されている2つのジョブが見えます。1つはテキストランキング用、もう1つは質問と回答用です。テキストランキングの応答作業を始めます。 この画面では、私の広告会社のために、営業チームが事前に選択した大規模言語モデルに入力するいくつかのプロンプトがあることがわかります。これらのプロンプトへの応答は、経営陣向けに明確にする必要があるため、冗長すぎないことが重要です。私はすでにモデルからさまざまなタイプの応答を生成しており、明確さと簡潔さに基づいてそれらをランク付けします。
応答を適切にランク付けしていきます。最も簡潔なのでこれを1位とし、非常に似ているのでこれを2位とします。3位と4位はほぼ同じなので、少し詳細が少ないこちらを選びます。これを提出すると、 この情報がモデルの微調整とトレーニングに使用されます。これにより、モデルに簡潔に応答する良い例を教え、ビジネスの好みに合った応答の例を提供することができます。
次に、質疑応答を使ってこれをどのように行うかの概要をお見せします。 私はすでにAmazon S3アカウントを旅行とスポーツに関連するドキュメントで更新しました。これらのトピックに関する重要な情報に適切に応答する方法をモデルに教えていきます。
Foundation modelはオープンソースのデータセットで訓練されていますが、必ずしも私たちのビジネスや、これらの分野に関する社内文書について知っているわけではありません。ここにFresno Countyに関する文書があります。左側には、私自身と、これをレビューする作業者に与えた多くの指示があります。この特定の文書に関して、それをレビューする人にとって最も一般的な質問をいくつか作成しようとしています。
Fresnoは Central Valleyで最大の都市です。では、Central Valleyで最大の都市は何でしょうか?答えはFresno Countyです。この答えがテキスト本文のどこにあるかを参照し、モデルにその答えがテキストのどの部分にあるかを理解させます。これが私のワークフローにとって重要なのは、基本的にモデルに適切な情報を見つける場所を教え、その引用を提供しているからです。これにより、次に誰かがこの文書やFresno Countyに関する情報をモデルに問い合わせたとき、モデルはその答えが見つかるテキスト本文の適切な部分で応答します。これは非常に有用で、今からそれを提出しようとしています。
次に示すユースケースは、広告会社のための多数の広告やキャンペーンの作成に関するものです。私たちには多くの異なる広告キャンペーンがあり、私の組織の広告担当者がGenerative modelを使用してこれらの詳細な広告を作成する際、モデルが生成できるようにしたい詳細なイメージや情報の種類の例をモデルに与えることが非常に重要です。このツールを使用して、私が強調したいこの画像内の主要な領域を説明し、それがどのように見えるかの詳細なキャプションを提供しようと思います。
ボールルームの中央に白いドレスを着た女性がいます。 オレンジのドレスを着た他の2人の女性がいて、床は非常に光沢があります。全員が窓の外を見ています。これが本当に重要なのは、私たちの広告担当者が、これらの広告キャンペーンを作成し、Generative modelに作成してほしい詳細な例を作る際に、ゴールデンデータセットの本当に良い例を与え、求めている詳細な情報の種類についてモデルに教えたいからです。これを使用して、同様のタイプの例を出力するようにReward modelを微調整し、トレーニングしようと思います。
次にお見せするユースケースは、特に動画に関するものです。この広告会社では、作成したい多数の動画素材があります。私はこの動画の内容を見て、そしてこの動画で起こっている活動を具体的に説明する必要があります。では、さっと見てみましょう。この動画では、ある男性が誰かにゴルフクラブの振り方を教えているようです。ここでキーワードを入力します。そして他の人にも同じように指導しています。
ここで起こっている主な動作に関しては、まずゴルフスイングを引き戻すことがひとつ目です。次にゴルフボールを打って打撃を加えること、これが二つ目です。そして最後にフォロースルーがあります。つまり、ここでは3つの動作が行われており、これは私たちのスポーツキャンペーンのユースケースに適した動画です。
この例を分析したので、これを提出します。今日お見せしたことについて、Amazon SageMaker Ground Truth を使用して、モデルの応答を作成しランク付けし、人間の好みに合わせる方法、そしてそれを人間のフィードバックによる強化学習に使用する方法をデモンストレーションしました。また、モデルに適切な方法で質問に回答させるために、質問回答を作成してモデルを教育する方法をお見せしました。さらに、画像や動画を簡単に扱い、キャプションを付けてモデルに適切な応答方法を教える方法もデモンストレーションしました。では、Ketakiに引き継ぎ、彼女のチームがこれを生成的ユースケースにどのように活用したかをお見せします。
Krikey AIの紹介:3D AIアニメーション基盤モデルの構築
ありがとう、Amandaさん、そしてRomiさんもありがとうございます。まず自己紹介させていただきます。私はKrikeyのチーフテクノロジーオフィサーのKetakiです。私の姉妹で共同創業者のJhanviも一緒にいます。実は、これは私たちがビジネスを構築して7年目になります。簡単に言えば、私たちはAIツール会社で、直接消費者向けと企業向けの両方の市場にサービスを提供しています。テキストや動画を3Dヒューマノイドアニメーションに変換することを可能にしています。今日のプレゼンテーションでは、これらのアニメーションをどのように使用できるかについて説明し、また、Ground Truthチームと協力してテキストからアニメーションへの基盤モデルをどのように訓練したかについても説明します。
こんにちは、KrikeyのCEOのJhanviです。今日は、私の共同創業者が、Amazon SageMaker Ground Truthを使用して3D AIアニメーション基盤モデルをローンチした方法について説明します。
まず、アニメーションがなぜエキサイティングなのか、そして私たちがなぜ3Dアニメーションを中心に会社を設立したのかについてお話ししたいと思います。私たちのほとんどは、人生のどこかでアニメーション映画を見たことがあるでしょう。歴史的に見ると、アニメーションの分野は完全に手作業で行われてきました。100年前、Walt Disney Companyが設立された頃は、アニメーションは手描きでした。その後、色が加えられ、現在では3Dアニメーションの制作をサポートする多くのツールがあります。3Dアニメーションは非常に複雑で、習得には何年もの訓練が必要です。ここ5〜7年の間に、エンターテインメント以外の分野でも3Dアニメーションの多くの使用例が見られるようになりました。これについても今日お話しします。
このことを踏まえて、私たちは誰もがアニメーションを作れるようにしたいと考えました。ここにいる私たちのほとんどはアニメーターではありません。訓練を受けた3Dアニメーターはごく少数で、非常にニッチな分野です。私たちは、誰もがアニメーションを作れるようなツールを作りたいと考えました。私たちのfoundation modelを使えば、5分以内に高品質な3Dアニメーションを生成できます。また、Webベースの3D no-codeエディターも用意しており、あらゆる言語、アクセント、ダイアログで話すアバターを使って、本格的な3Dプロジェクトを構成し、まとめることができます。これらのアバターの外見をカスタマイズしたり、カスタマイズした3D背景を追加したり、好きなだけアニメーションを入れたりすることができます。私たちの目標は、YouTubeがインターネットに動画コンテンツをアップロードする方法を民主化したように、誰が高品質な3Dコンテンツを制作できるかを民主化することです。
私たちがこのプロセスを始め、foundation modelを構築しようとしたとき、3つの主な目標がありました。これは実際に私たちのビジネスの核心部分です。まず、事前の技術的知識がなくても高品質なアニメーションを作成できるようにしたいと考えました。次に、小規模なスタートアップとして、機械学習のトレーニングデータを準備するためのコストと時間を削減する必要がありました。これはRomiとAmandaも触れていましたが、高品質なデータを見つけ、クリーニングし、ラベル付けをして、その後モデルをトレーニングするのは非常に複雑です。最後に、アニメーションプロジェクトの制作を依頼する多くの問い合わせを受けていました。これらの要求にタイムリーに応え、顧客の需要に確実に対応する必要がありました。
要約すると、3つの主要な課題があります。まず、アニメーションデータを手動でラベル付けするのは非常に難しく、時間がかかります。私たちはビデオデータに対してモデルをトレーニングします。単一のアクションを含む各ビデオクリップに対して(実際には1つのビデオクリップに複数のアクションが含まれることがあります)、ラベルが必要です。ラベルは短くてはいけません。非常に詳細で豊かな内容である必要があります。そうすることでのみ、モデルで良い結果が得られます。その理由は、例えば誰かがジャンピングジャックをしているビデオに対して「ジャンピングジャック」という非常に短いラベルをつけた場合、エンドユーザーにとって良い結果が得られないからです。
これは、顧客が3Dアニメーションを生成するために入力するキーワードの範囲が非常に狭いことを意味します。私たちは本当に、1〜2文の長さで高品質なラベルを作成しようとしています。これにより、この3Dモーションがどのように解釈され、描写されうるかについて、本当に感覚をつかむことができます。これは時間がかかるため、非常に難しいのです。また、大規模に行うのも困難です。私たちには何十万ものデータポイントがあり、それらにラベル付けする必要がありました。
当初、私たちのチームは実際にこれを自分たちで行っていました。Ground Truthチームと出会う前は、私自身と他の数人のチームメンバーが毎日数時間かけてこのデータセットのラベル付けを試みていました。しかし、私たちはすぐに、データセット内のすべてのモーションにラベルを付けることと、日々の仕事の他のタスクを同時にこなすことは不可能だと気づきました。そこで、SageMaker Ground Truthチームと協力し始めることにしたのです。
Krikey AIとSageMaker Ground Truthの協力:大規模3Dモーションデータセットの構築
私たちはGround Truthだけでなく、AWSの上に全てのオファリングを構築しています。Amazon S3、Amazon EKS、Amazon RDS、Amazon ElastiCache、Amazon EC2、AWS Amplifyなどを使用しています。もし質問があれば、詳しくお話しできます。AWSでの開発は素晴らしく、私たちにとってゲームチェンジャーとなりました。コンシューマーツールでは、ほぼどの地域のお客様にもサービスを提供できています。また、Q1末にリリース予定のエンタープライズ向けオファリングでは、お客様がSageMaker Jumpstartを通じて私たちのファウンデーションモデルをデプロイし、ノーコードの3Dエディタをセルフホストできるようになります。これらは全て、お客様のビリングインスタンス内で、たった1つのTerraformスクリプトによるワンクリックデプロイメントで実現します。これらすべてが可能なのは、様々なAWSサービスを使用してオファリングを運用できているからです。
ユースケースについても少しお話ししたいと思います。冒頭で述べたように、歴史的にアニメーションは主にエンターテイメントに使用されてきましたが、ここ数年で、ゲーム、ヘルスケア、スポーツ、学習、メタバースなど、多くのユースケースが見られるようになりました。私たちのツールは非常にアクセスしやすく、高品質なアニメーションを素早く生成できるため、これらの多くのユースケースで興味深い機会が見られます。
少し音が小さいですが、これは私たちのツール内で生成されたものです。カスタマイズされた骨格アバターが、AIアニメーションでジャンピングジャックを行い、骨格が話しています。これは教育用ユースケースの例です。このコンテンツは1分以内で作成されたもので、非常に速く作成でき、かつ高品質に見えます。
SageMaker Ground Truthとの協力の目標は、これを大規模に行うことです。現在、世界最大の3Dモーションデータセットを構築中です。実は、この講演の時点ですでにこの目標を達成しています。トレーニングデータセットに、高品質なラベルが付けられた人間の動きの最大のコレクションを持っており、すでにファウンデーションモデルをトレーニングし、コンシューマー向けオファリングにデプロイしています。Ground Truthチームの助けがなければ、これほど迅速に実現することはできませんでした。なぜなら、モデルをお客様にリリースするために、高品質でメディアリッチな説明的ラベルを非常に迅速に必要としたからです。
ソリューションの概要を簡単に説明します。Ground Truthチームが構築したインターフェースがありました。Amandaが皆さんにお見せしたものです。私たちは、Ground Truthのインターフェースを通じて直接ビデオを提出しました。チームがラベル付けを行い、週1回のミーティングで、ラベルの一部を確認し、求める品質であることを確認しました。小規模なチームである私たちにとって素晴らしかったのは、パートナーシップの深さです。週1回のチェックインで、ラベル付けの良い点や改善点について話し合うことができました。
特に私たちにとって重要だったのは、データセットに非常に多様なビデオが含まれていたため、良いラベルの基準を常に更新する必要があったことです。例を挙げましょう。最初に提出した1万本のビデオはすべてスポーツビデオでした。スポーツの動きを正確に描写するには、特定のタイプのラベルが必要です。次の1万本のビデオはすべてダンスビデオでした。ダンスのジャンルは多岐にわたり、ダンスの動きを描写する方法も様々です。そのため、ダンスのアニメーションのラベル付けとスポーツのアニメーションのラベル付けでは、品質の基準が実際に異なります。Ground Truth側で大規模なチームと協力していたため、週1回これらの品質基準の評価を行い、進行に合わせてガイドラインを更新することができました。そのおかげで、求めていたラベル付けを非常に迅速に得ることができました。
また、リップシンクされたキャラクターも提供しています。これまでご覧いただいたすべてのビデオは、Krikey AIを使用して作成されています。誰でもAIアニメーションと音声を使用して3Dの話すアバターを作成でき、音声付きでカスタムAIブランドボイスを作成することもできます。現在使用している音声は、デフォルトで私たちのツールに付属していますが、実際には自分の音声をアップロードして、自分や特定のブランドの代表者のような声のカスタムボイスを作成することができます。私たちのモデルは非常に幅広い種類のアニメーションに対してトレーニングされているため、キャラクターは好きなことを何でもできます。つまり、思い浮かべるどんなタイプのアクションでも、私たちのツール内で生成できます。また、キャラクターはどんな言語、アクセント、台詞でも話すことができます。教育、ソーシャルメディア、映画など、様々な用途に使えます。
これが簡単な例です。 再び、私たちのツール内で作成されたコンテンツの一部です。これを生成するのに3分もかかりませんでした。非常に高速で高品質です。現在、非常に大規模なラベル付きアニメーションデータセットを持っているため、 実際に今四半期初めにAIアニメーションをサードパーティのツールに提供することができました。これは非常にエキサイティングです。初めて、3Dコンテンツや3Dアニメーションの制作方法を全く知らないデザインツールのユーザーが、Krikeyの統合を使用してAIアニメーションを生成できるようになりました。これは非常にエキサイティングで、SageMaker Ground Truthチームの協力がなければ、わずか6ヶ月という短期間でこれを達成することはできませんでした。
こちらは別の簡単な例です。 日本語で話す旅行ガイドのアバターです。背景に旅行ポスターのようなものが見えますね。これも私たちのツール内で生成するのに2分もかかりませんでした。技術的な知識がなくても、2回クリックするだけで制作できます。これまでの経緯と今後の展望を簡単にまとめますと、 このプロセスを始めた時、私たちは3Dコンテンツ、特に3Dアニメーションの制作を民主化したいと考えていました。テキストと動画の入力を使用して、高品質の3Dモーション出力をFBXファイルで生成することを目指していました。
私たちは単独でこれを行うことはできませんでした。なぜなら、膨大な量のビデオトレーニングデータセットにラベルを付ける必要があったからです。そこで、SageMaker Ground Truth チームとのパートナーシップにより、わずか3か月で foundation model を市場に投入することができました。小規模なスタートアップにとって非常に重要な、1000時間以上の生産性向上を実現しました。また、ラベリング費用とチームの時間を合わせて20万ドル以上節約できました。そのおかげで、製品を市場に投入するために必要な他の製品タスクに実際に集中することができました。
本日の講演にお越しいただき、誠にありがとうございます。 Krikey AI や Amazon SageMaker Ground Truth についてご質問がありましたら、後ほど私たちにお尋ねいただくか、お声がけください。さらに詳しくお話しさせていただきます。それでは、Romi にお返しします。
まとめと次のステップ
素晴らしいですね。皆さんはどうか分かりませんが、私は間違いなくアニメーション映画を作りに行きます。 どれほど素晴らしいものになるかは分かりません。創造性次第ですが、これなら簡単にできそうです。さて、次のステップをご紹介します。このQRコードを使って、2か月間の無料トライアルを開始したり、 オンラインリソースを確認したり、デモを見たりすることができます。ここで質疑応答の時間を約15分ほど設けています。また、セッション後のアンケートにもぜひご協力ください。お時間をいただき、ありがとうございました。
※ こちらの記事は Amazon Bedrock を様々なタスクで利用することで全て自動で作成しています。
※ どこかの機会で記事作成の試行錯誤についても記事化する予定ですが、直近技術的な部分でご興味がある場合はTwitterの方にDMください。
Discussion