re:Invent 2024: AWS AIチップの性能最適化とコスト削減事例
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
📖 AWS re:Invent 2024 - Customer stories: Optimizing AI performance and cost with AWS AI chips (CMP208)
この動画では、AWSのPrincipal GenAI SpecialistのDiwakar Bansalが、TrainiumやInferentiaなどのAWS AIチップの最新動向について解説しています。特にTrainium2の発表に焦点を当て、1.3 PFLOPSの性能や4倍の計算能力など具体的な性能向上について説明しています。RicohのTakeshi Suzukiは日本語LLMの開発でCurriculum Learningを活用した事例を、Arcee AIのMark McQuadeはSLM(Small Language Model)の開発とAWS AIチップによる32%のコスト効率向上について、IBMのArman RuisはWatson XプラットフォームとAgentic AIの展望について、ByteDanceのWangpengはマルチモーダルモデルの開発経験を共有しています。
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。
re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!
本編
AWS GenAI Specialistによる生成AIの現状と展望
みなさん、こんにちは。本日はようこそお越しくださいました。まず手を挙げていただきたいのですが、2024年がGenAIにとってまた一つの変革の年だったとお考えの方は何人いらっしゃいますか?GenAIは世界中で大きな注目を集めています。小売りから金融、ヘルスケアまで、あらゆる業界がGenAIを通じてビジネス成果と顧客体験の向上を目指しています。私はDiwakar Bansalと申しまして、AWSのPrincipal GenAI Specialistとして、TrainiumやInferentiaなどのAIチップベースのインスタンスを含むEC2アクセラレーテッドコンピューティングインスタンスを担当しています。
本日のパネルでは、AWS ChipのTrainiumとInferentiaを使用してGenAIのユースケースを実現している、選りすぐりのお客様からお話を伺います。私は、スタートアップから大企業、ISV、公共機関まで、GenAIを活用してビジネス成果を上げている企業と協力しており、これらの企業にはコストパフォーマンスの面で特定の要件があります。今日は、GenAIのインフラストラクチャに関して私たちがどのような投資を行っているかについてお話しします。
2024年のGenAIトレンドとAWSのAIチップ投資
2024年、GenAIにおいて私たちはいくつかの主要なトレンドを目にしてきました。大規模言語モデルはさらに大規模化し、開発者たちは精度と結果を向上させるため、ディスティレーションを用いたドメイン適応手法でモデルのファインチューニングと適応を検討しています。モデルが大規模化する一方で、Llama3や4-5Bモデルのリリースにより、開発者たちは小規模なモデルにも注目しています。Small Language Modelsは新しく台頭してきた分野です。マルチモーダルモデルも非常に一般的になってきています。人間は音声や映像、テキストなど複数の入力を処理しますが、マルチモーダルモデルはそれを再現しようとしています。AI AgentsやMixture of Expertsも、一つの大規模な単一モデルに対して、小規模なモデルが集まってワークフローやタスクベースの人工知能を通じてワークロードを提供する、集合知の観点から非常に注目を集めています。
AWSでは、長年にわたってAIチップのInferentiaとTrainiumに投資を続けてきました。AWSの最新の追加製品がTrainium2です。今週発表された内容にご注目いただいた方もいらっしゃると思いますが、Trainium2が発表されました。私たちは数年前にInferentiaから始め、TrainiumとInferentia2がGenAIワークロードに対して優れたコストパフォーマンスを提供してきました。そして今回、Trainium2によってフロンティアモデルのより高いパフォーマンスを実現する新たな段階に到達しました。
Trainium2は1.3 PFLOPSを実現し、これはTrainium1と比較してAWSの他のどのEC2インスタンスよりも30%高い性能です。Trainium2は4倍の計算能力、4倍のメモリ、そして高帯域幅メモリに対して4倍の帯域幅を提供します。これは、生成AIと機械学習ワークロード向けに特別に設計された私たちの第3世代チップです。
Trainium2チップを搭載したインスタンスでは、20.8 PFLOPSの計算能力、46テラバイト/秒のHBMバンド幅、1テラバイト/秒のNeuronLink速度を実現しています。これにより、Trainium2インスタンスは、MLのトレーニングと推論において最もパワフルなインスタンスとなっています。大規模な分散トレーニングや分散推論を行う場合、複数のインスタンスに分散させる必要がなく、1つのインスタンスにまとめることが可能になりました。
Trainium2は、他のどのEC2インスタンスよりも30%高いPFLOPS、最大95%向上したメモリバンド幅の利用効率、そして4倍のスパース性能向上により、イノベーションを推進しています。これらすべてにより、数千億のパラメータから数兆のパラメータまでのGenAIワークロードを、コスト効率よく高性能に処理できるようになりました。さらに、エネルギー効率も優れています。
ハードウェアだけでは十分ではありません。私たちは、TrainiumとInferentiaでGenAIワークロードを構築するためのツール、ライブラリ、コンパイラー、フレームワークサポートを提供するNeuron SDKを開発しています。Neuron SDKは、フレームワークとしてPyTorchとJAXと統合され、AWS Parallel Cluster、Batch、ECS、EKSなどのインフラストラクチャの調整、スケジューリング、管理のための他のAWSサービスとも統合されています。TrainiumはまたAmazon SageMaker、SageMaker JumpStart、Amazon SageMaker HyperPotを通じても利用可能です。さらに、エコシステム開発者と協力して、Neuron SDKを通じてTrainiumとInferentiaに彼らのツール、フレームワーク、ライブラリを提供できるよう取り組んでいます。例えば、PyTorch Lightning、Ray、10万以上のモデルを持つオープンソースリポジトリを持つHugging Faceが、現在TrainiumとInferentiaで動作しています。Neuronは観測性とモニタリングのためにLLM dataと統合されています。
RicohのTakeshi Suzuki氏が語る日本語LLM開発の取り組み
これらのツールにより、AWSのTrainiumとInferentiaで生成AIの機械学習ワークロードを簡単かつ効率的に実装することができます。これから、パネリストの方々から、TrainiumやInferentia 2の活用事例、そしてTrainium 2での生成AIワークロードの活用予定についてお話しいただきます。それでは、RicohのTakeshi Suzuki様に、生成AIワークロードにおけるTrainiumとInferentiaの活用経験についてお話しいただきたいと思います。
皆様、こんにちは。Ricoh CompanyのTakeshi Suzukiです。本日は、AWS Trainiumを使用した日本語LLMの開発経験についてお話しさせていただきます。 私たちはLlama3の日本語能力を開発するためにCurriculum Learningを活用しました。このアプローチは他の言語にも応用可能だと考えており、英語以外の言語を使用する方々にとって、そのような言語のLLMを開発する際に有益なものとなるでしょう。
技術的な詳細に入る前に、私たちのAIビジネスの概要についてご説明させていただきます。B2Bビジネスを展開している当社では、AIモデルのトレーニング、開発、AIシステム開発、サービスデプロイメントなど、様々なサービスを提供しています。これらのサービスを効率的に提供するため、Generative AIツールやAnalytical AIツールなど、独自のAIツールを開発してきました。現在は特にGenerative AIに注力しており、RAGとPrivate LLMの分野に力を入れています。日本市場では、製造業、一般企業、金融セクターの企業が機密性の高いデータを扱うため、Private LLMを求めています。このようなお客様企業にサービスを提供するためには、高度な日本語処理能力が不可欠です。
日本市場には、5つのポイントにまとめられる技術要件があります。出力の品質が非常に重要で、論理的な推論も同様に重要です。お客様は特定の業務に合わせたツールの適応を求めており、ビジネスワークフローへの適応が極めて重要です。最適化されたコストでの提供を求められ、データセキュリティを確保するために、オンプレミスでのサービス提供を要求されることもあります。このような要件に対応するため、2つの主要な技術的課題があります。1つは、産業用途に特化した、優れた日本語処理能力を持つ大規模ではないLLMを実現することです。これを達成するには、ドメイン適応、Fine-tuning、モデルのサイジングが非常に重要になります。
LLM自体の課題だけでなく、英語のLLMから日本語LLMを開発するための技術フレームワークも必要とされています。現在、ほとんどのLLMは最初に英語で開発され、その後ローカライズされています。毎週、毎月、新しいモデルが市場にリリースされているため、一つ一つ個別に開発することはできません。そのため、英語のLLMから日本語LLMを開発するための技術フレームワークが必要なのです。 私たちのソリューションは2つのステップで構成されています。まず、市場に適切な日本語LLMが存在しない場合、Tokenizerの適応、最適化、Curriculum Learningを通じて独自のモデルを開発する必要があります。国際的または多言語モデルは存在しますが、特定の言語に最適化されていないため、総合的なパフォーマンスと効率が低くなってしまいます。
日本語に特化してTokenizerを適応・最適化するため、Curriculum Learningを使用しています。日本語への特定言語適応とCurriculum Learningには、異なる目的を持つ3つのフェーズがあります。第1フェーズでは、Catastrophic Forgettingを最小限に抑えることが目的で、大量の英語コーパスを採用してこの問題を回避します。最後のフェーズでは日本語文の品質管理が重要となるため、英語コーパスを最小限に抑えながら、最高品質の日本語コーパスを組み込みます。第2フェーズは表現の堅牢性を高めることに焦点を当てています。これは単一のタスクや目的のためではなく、様々なDownstreamタスクのための学習だからです。このような表現を開発するために、大量のコーパスを使用した広範なサイクルトレーニングを実施しています。これにより、英語の能力を維持しながら、トップクラスの日本語処理能力を実現しています。
2番目のステップはローカライズまたは日本語化で、最新の機械学習技術を適用してより高いパフォーマンスを実現できます。 この図では、東京工業大学の日本の研究者によって開発された日本語モデルLlama-Swallowが黄色の四角で示されています。これが更なる開発の良いベースとなります。Metaのモデルと私たちのモデルの両方からCharacter Vectorsを計算することができます。これら3つを重み付け和で組み合わせることで、非常に高性能な日本語LLMを実現できます。結果として得られるモデルは、日本語でGPT-4と同等のパフォーマンスを発揮します。
このような日本語LLMを開発するために、私たちは大規模クラスター上でTrainingフレームワークを使用しています。最適な設定を特定するため、右側のグラフに示されているノード数とスループットの関係のように、徹底的な実験を行いました。その結果、コストとパフォーマンスを最適化するスイートスポットとして256ノードを特定しました。このセットアップにより、GPUクラスターと比較して、トレーニングコストを最大50%削減し、トレーニング時間を25%短縮するという大きな改善を達成しました。昨年2023年に日本語LLMモデルとVisionモデルを開発した際には、45%のコスト削減と12%のトレーニング時間短縮を実現しました。Training SDKの使用経験を重ねるにつれて、さらに良い結果が得られ続けています。
開発にはSDK 2.19を使用しましたが、対処すべきリスクがいくつかあります。このSDKは開発者にとって重要ですが、スケジューリングが予測困難です。例えば、このバージョンではアルファリリースが5月、GAが7月でした。このリスクを軽減するために、利用可能時期を把握するためAWS開発者との密接なコミュニケーションを維持する必要があります。ノードの障害は私たちだけでなく、誰もが直面する課題ですが、いくつかの対策が用意されています。まとめると、インフラのエラーは避けられませんが、適切な対策を講じることで管理可能です。
私たちはAWSと数年にわたって協力関係を築いており、60億パラメータの小規模なモデルから始まりました。 2024年の現在では、700億パラメータモデルの2つのバージョンを共同で開発しています。2025年に向けて、大規模なマルチモーダルモデルの開発に注力していく予定です。この開発はTrainingフレームワークをベースに行われ、開発時間のさらなる短縮とコスト削減が期待できます。
これらの改善により、顧客企業への最適な適応性を追求していきます。では、次のスピーカーをお迎えしましょう。
Arcee AIのMark McQuade氏が示すSLMsの可能性と課題
私はArcee AIのCEO兼共同創業者のMark McQuadeです。Arcee AIでは、SLM(より小規模な特化型言語モデル)に重点的に取り組んでいます。AWS TrainiumとInferentiaを活用してトレーニングと推論のコストをどのように削減できたかについてお話しします。 私たちはEmergenceやLong Journey Venturesなどの投資家に支援されているシリーズAの企業です。世界クラスのポストトレーニングパイプラインを用いてSLMを作成しており、特にModel Mergingの分野で独自のライブラリを開発しています。具体的には、Merge Kit、効率的なトレーニングのためのSpectrum、そしてモデル蒸留のためのDistill Kitというライブラリがあります。これらのライブラリをAPIのパイプライン内で活用してモデルを作成しています。パートナーシップには、AWS、主要パートナーとしてのHugging Face、MongoDBなどがあります。Hugging Faceのリーダーボードでは、最高の15億パラメータモデル、最高レベルの700億パラメータモデル、そして最高のアラビア語モデルなど、トップクラスのモデルを有しています。
現在の取り組みについてご説明させていただきます。私たちは、ツールキットプロバイダーからモデルビルダーへ、そして現在は、エンドツーエンドのシステムカンパニーへと進化してきました。3日前に、Arcee Orchestraという新製品をリリースしました。これは、Small Language Models(SLMs)を活用した目的特化型のAIエージェントを提供するものです。単なるモデル層の提供にとどまらず、Arcee Orchestraと呼ぶエンドツーエンドのエージェントシステムを提供することで、企業がタスクを完了・自動化してROIを向上できるようにしています。モデルを提供するだけでなく、そのモデルをどのように活用するかについての実践的な洞察も提供しているのです。
ここで、SLMsを大規模に展開・トレーニングする際の課題について説明させていただきます。 コストは重要な要素の一つです。私たちの主力製品の特徴の一つが効率性です。効率性とコスト削減を何よりも重視しています。私たちのソフトウェアは、モデルが小規模であるというだけでなく、トレーニングと展開の方法自体によって、モデルのトレーニングと推論のコストを低減できるように設計・構築されています。 パフォーマンスに関して、NVIDIA GPUとそのパフォーマンスについては皆さんよくご存じだと思いますが、トレーニングでも推論でも、モデルから得られるパフォーマンスに対してコスト効率が良いとは言えません。 先ほど申し上げたように、私たちは効率性を重視しているため、NVIDIA GPUで一般的に可能なコストよりも低コストでモデルを効率的にトレーニングおよび展開できる新しいハードウェアの可能性を探り始めました。
結局のところ、すべてはコストパフォーマンスに帰着します。私たちは、AWS TrainiumとInferentiaの活用を決定し、Annapurnaチームと緊密に協力して、GPUに代わるより費用対効果が高く、より入手しやすいチップで顧客のニーズに応えることにしました。 NVIDIAと比較して、Trainiumを使用した場合のトレーニングに関連するコストを削減しています。 可用性に関して、AWSでGPUがときに希少なリソースとなることは皆さんもご存じだと思います。TrainiumとInferentiaチップは、より多くのリージョンで容易に利用可能です。 デプロイメントの複雑さについては、可能な限り最小限に抑えるよう努めています。NVIDIAのハードウェアやチップへのデプロイメントは誰もが慣れていますが、異なるチップセットに移行する際のデプロイメントの労力も最小限に抑えることを目指しています。
AWSチームと数ヶ月にわたって緊密に協力してきました。 Trainiumを使用してトレーニングを行い、Llamaの上で継続的なプリトレーニング技術を実施することで、複数のベストインクラスのLlamaベースSLMsを構築しました。その結果、SuperNovaというモデルを開発しました。
SuperNovaは、私たちの主力となる700億パラメータのモデルでした。その後、Virtuosoという新しいモデルをリリースし、現在Hugging Faceで最高の140億パラメータモデルであるMediusモデル、そして80億パラメータモデルのSuperNova Liteもリリースしています。AWSと協力して全てのSLMsを評価し、 トレーニングの実行と推論のパフォーマンスを検証しました。私たちの全てのモデルは、 現在AWS MarketplaceとSageMaker JumpStartに登録されており、 ワンクリックで推論用にデプロイできます。様々な側面を検証した結果、トレーニングとInferentiaは、これらのチップで達成できる成果という点で特に際立っていました。
先日リリースした私たちのプラットフォーム、具体的にはArcee Orchestraについてお話しします。こちらがそのスタック構成です。モデルレイヤーにあるSLMsで構成されるAgentic Networkがご覧いただけます。このモデルレイヤーの上に、モデルルーティングとオーケストレーション、タスク分解、そしてフロントエンドUIのAPIを構築しています。このAgentic Networkのモデル全体は現在、Trainiumでトレーニングされ、Inferentiaにデプロイ可能な状態となっています。
結果は、すべてのモデルサイズにおいてコストパフォーマンスの向上を示しています。 私たちの80億パラメータモデルは、小型GPUであるg5.2xlargeでの実行と比較して、推論において32%優れたコスト効率を実現しています。700億パラメータモデルについては、p4d、p4de、p5インスタンスと比較した場合、Inferentiaへのデプロイ時に非常に優れたコスト効率が見られ始めます。これらのチップでは、より広いリージョン可用性、優れたスケーラビリティを実現し、AWS MarketplaceからSageMaker JumpStartやBedrockストアへのワンクリックデプロイメントが可能です。
今後の展望として、私たちはAWSチームとの協力を継続し、SLMsのすべてがTrainiumで容易にトレーニングでき、Inferentiaにデプロイできるようアーキテクチャの検証を進めていきます。私たちはTrainium2のデザインパートナーであり、これによりTrainiumでのトレーニング時のパフォーマンスとコスト面でのメリットがさらに向上するはずです。この協力関係を継続し、現在13個あるすべてのモデルは、TrainiumとInferentiaチップ上でデプロイ可能な状態でMarketplaceで提供されています。
IBMのArman Ruis氏が語るGenerative AIの進化と企業戦略
ありがとうございます。Armanさん、ステージにお越しいただき光栄です。では、聴衆の皆様への簡単な自己紹介から始めましょう。ご招待ありがとうございます。こちらこそ光栄です。私はIBMのVP of Product ManagementのArman Ruisです。私たちはAWSと多くの協業を行っており、これはまだ始まりだと感じています。
IBMが提供している製品やサービスについて教えていただけますか?そして、IBMは確かにGen AIに力を入れていますよね。多くの方がIBM Watsonをご記憶かと思います。昨年5月に、私たちはGenerative AIに重点を置いた次世代のWatsonプラットフォーム、Watson Xをリリースしました。Watson Xプラットフォームには、簡単に説明すると3つの主要コンポーネントがあります。Gen AIソリューションを作成するためのツール、モデル、機能を備えたAI Studio、データとメタデータを統合してAIとデータを接続するインテリジェントデータレイクハウスのWatson X Data、そして本番環境のすべての製品のモニタリング、ガバナンス、コンプライアンスを確保するためのガバナンスコンポーネントです。
素晴らしいですね。では、Generative AIに関する全般的なご意見をお聞かせください。先ほど申し上げたように、2024年は再び変革の年となりました。新しいコンピューティングオプション、新しいフレームワーク、新しいモデルタイプ、新しいカテゴリーなど、多くの進展がありました。私にとってはまさに恵みでした。というのも、10年以上AIに携わってきた中で、物事が停滞するAI冬の時代にいると感じていたところ、OpenAIが私たち全員が必要としていたマーケティングを行ってくれたからです。
彼らは非常にクールなアプリケーションを見せ、それによって誰もがAIの可能性を目の当たりにし、世界中で話題となりました。当時、私はPre-salesチームにいました。キャリアの大半はProduct Managementでしたが、2年ほどPre-salesを経験しました。その後、私たちは500人のAIエンジニアを採用し、Generative AIに関する1000以上のパイロットプロジェクトを実施しました。それは素晴らしい経験でした。
このチャートは、私が考える市場の進化を要約したものです。 上から見ていくと、私たち全員がPromptエンジニアやPromptの専門家になることから始まりました。私たちはLLMを使い、これらの素晴らしいモデルから望む結果を得るための最適なPromptの方法を模索していました。その後、Promptにより多くのコンテキストやデータを追加することを始めました。Context windowに関する多くの問題がありましたが、結局のところ、Hallucinationなどの問題に直面していました。
次に、私が固定フローから可変フローへの進化と呼ぶ第二段階に移行しました。固定フローのものは全て、基本的にクラシックなRAGのようなユースケースでデータを使ってLLMをGroundingすることができました。実際、先ほど言及した役職にいた時、プロジェクトの90%近くがRAGのユースケースでした。私はSLMの大きなファンですが、優れたSLMを取り入れ、それを自社の企業データで適応させて実行する方法を探っていました。そして今、最も刺激的な最大の転換期の真っ只中にいます。ここでは、固定フローではなく可変的なAIシステムに完全に自動化され、LLMが全ての計画立案や推論を行い、更新してフィードバックループを形成しています。
2024年の私のお気に入りの瞬間の一つは、年初めに参加した会議で、「Attention Is All You Need」論文の著者全員がステージに登壇し、Transformerアーキテクチャがどのように生まれたのかについて語っていたことです。そして、ここから生まれる可能性のある新しいオプションやモデルのカテゴリー、つまりTransformerベースではないモデル、Agentic AI、推論などについて議論していました。その点についても触れられていたと思いますが、推論についてのお考えはありますか?また、Agentic AIとは実際には何を意味し、AIの開発者やユースケースにどのような可能性をもたらすのでしょうか?
ユースケースの観点から見ると、私たちは多くのイノベーションを目にすることになると思います。実際、すでにそれは始まっています。私たちは、単に結果を生成するAIから、実際にアクションを起こすことができるAIへと移行しています。AIにどこまでの権限を与えるかは私たちの判断次第ですが、それを適切に実現するためには、これらのモデルを次のレベルに引き上げる必要があります。そのため、IBM Researchをはじめとする多くの研究機関で、スマートプランニングや推論などの分野で大きなイノベーションが進んでいます。これらは、様々な知識テストでの精度だけでなく、推論能力などを測定する多くのリーダーボードやベンチマークに登場し始めています。このような能力は、Agentic AIのようなワークフローへと統合・移行していく中で、非常に重要になってくるでしょう。
AWSにとって興味深いのは、IBMのような企業とパートナーシップを組むことで、今お話したような機能をサポートするために必要なインフラストラクチャ機能の面でイノベーションが促進されることです。生成AIのユースケースは拡大し続けており、それに伴って計算能力への需要も高まっています。これはコスト効率の良い方法で実現される必要があります。そしてエネルギー効率も大きな課題です。私が話したことの一部は、まさにそうした市場のニーズに対応するものです。
まず、私たちは10年以上にわたってモデルのトレーニングを行ってきました。Transformerが登場した時、私たちはすでに独自のTransformerモデルのトレーニングを行っていました。私たちはGraniteと呼ばれるモデルファミリーをリリースし、実は先月、最新世代のモデルを多くの興味深い機能とともに発表しました。これは特に企業向けに焦点を当て、企業が安心してこれらのモデルを使用できるようにすることを重視しています。データセット全体を公開しており、ホワイトペーパーで事前学習やトレーニングに使用された全てのデータセット、データの生成方法まで確認することができます。これらは全て完全にオープンで、適切な著作権と法的チェックを経ています。他のプロバイダーの多くが単なるブラックボックスを提供し、その中で何が行われているか分からない状況の中で、このアプローチは特定の業界や規制対象セクターの企業に大きな安心感を与えています。
私たちはAWSと様々な角度で、そして多くの異なる企業とパートナーシップを結んでいます。最も刺激的なパートナーシップの1つがAWSとのものです。これは正直な気持ちとして申し上げますが、彼らは最大のハイパースケーラーです。私たちには多くの顧客がAWS上にデータやワークロードを持っており、彼らは私たちのソフトウェアを気に入っています。AWSのインフラストラクチャとクラウド、そして私たちのソフトウェアは完璧な組み合わせです。私たちはできるだけ早く、ほぼ全てのソフトウェアをAWSに展開しており、私たちのGraniteモデルもAWSのサービスの一部として利用可能です。
ByteDanceのWangpeng氏が解説するマルチモーダルモデルの現状と未来
最近、私たちはAmazon Bedrockを通じてこれらを利用可能にし、さらに多くのものが登場する予定です。研究やインフラストラクチャなどについて話すにあたり、インフラのオプションについてあなたの見解をお聞きしたいと思います。もちろんGPUやその他のアクセラレーターがありますが、特に先ほど言及したAWSのチップは、生成AIのパフォーマンスとコンピューティングという課題を解決する上で重要な要素となっています。一般的に、このAIチップがこの分野で果たす役割について、特にAWS AIチップについて、どのようにお考えですか?
明らかに、この方程式には2つの部分があります:トレーニングまたはチューニングと、推論です。トレーニングも重要ですが、私は特に推論と、その分野で私たちが行っているすべてのことに興奮しています。御社のようなサービスがコストを下げ、それらのフレームワークやライブラリですべてをシンプルにしているため、より多くの企業がチューニングを行うようになっています。しかし、本当に重要なのは推論だと思います。私たちは非常に多くの需要とワークロードを目にすることになるでしょう。IBMでは、お客様がパイロット段階から本番環境へ移行し、何百万人ものユーザーや顧客に影響を与えられるよう支援しています。
私たちには、お客様のためにこのテクノロジーを理解しやすくし、コストを下げ、非常に良好なレイテンシーと高いパフォーマンスを提供できるパートナーが必要でした。結局のところ、AIはまだすべてデータに関するものであり、多くのお客様がAWSにデータを保存しています。最高のチップと、そのデータがすべて同じインフラストラクチャ、同じリージョンにあることは、とても理にかなっています。Watson Xでは、私たちのソフトウェアがAWSのチップでネイティブに動作するよう、AWSと協力して取り組んでいます。他のベンダーとのパートナーシップも発表していますが、ハードウェアに関しては中立的なアプローチを取っています。ただし、パブリッククラウドに関しては、AWSに注力しています。
私は実際に、AWS Neuron SDKでのトレーニングと推論においてGraniteモデルを動作させること、そしてWatson XとNeuron SDKの統合について、御社のチームと緊密に協力しています。さて、生成AI分野におけるIBMの次の展開は何でしょうか?私の時間の99%をAgentとフルスタックに費やしていると言えます。これらのAgentは、すべてを完全に変えることになるでしょう。私が言及した進化は、これらのシステムから始まり、多くの異なるLLMやSLMと相互作用する生成システムへと発展し、そのスタックをコスト効率的に最適化し、すべてのAgentを協調して動作させ、優れたツールを提供する方法を模索しています。
私の関心事の一つは、システムの実行と管理方法についてです。私たちはAmazon SageMakerとガバナンスポートフォリオでパートナーシップを結んでいます。SageMakerでモデルをトレーニングし、本番環境に投入し、そして私たちのスタックを使用して大規模に監視、管理、実行することができます。企業は、本番環境で何百万ものAgentを持つことになり、SalesforceのAgent、MicrosoftのCopilot、AWSのサービス、オープンソースフレームワークなど、さまざまなツールでトレーニングすることになると予想しています。私たちは、これらすべてを統合しています。
そこに私は多くの時間を費やしています。素晴らしいですね。Q&Aのためにまた登壇していただきますが、聴衆の皆様に最後に何かメッセージはありますか?
私たちは皆さんにGenerative AIを始めていただきたいと考えています。今こそAgentについてのスキルを身につける絶好のタイミングです。それが何であるか、どのようなユースケースがあるのかを学び、そして簡単なアプリケーションから始めてみてください。コーディングができる方は、人気のあるオープンソースライブラリの1つを使って、自分用のAgentを作ってみてください - きっと驚くはずです。No-codeが好みの方でも、最初のAgentを作成できる多くのNo-codeソリューションがあります。最初の1つを作成すれば、そのポテンシャルが見えてきて、さらに10-20のユースケースが思い浮かぶはずです。
Hermanの宣伝をさせていただきますが、私は彼のLinkedInの投稿の大ファンで、彼はAgentic AIの推論について定期的に投稿しています。彼の15日間のコースでは、Generative AIを理解し、実際にコーディングをせずにコーディングを始めることができます。私は毎朝7時にLinkedInでAIに関する教育的な内容を投稿しています。素晴らしい成果を上げており、とても興味深いものになっています。Wangpeng、ありがとうございました。
パネリストたちが語るGenAIの課題と展望
調子はいかがですか?自己紹介をお願いします。 私は約22年の経験を持つマルチモーダルモデル開発者です。以前は、音声処理に1年、画像と動画に5年携わっていました。現在は主にByteeDanceのためのMulti-modal ModelsやLarge Language Modelsの開発に注力しています。このモデルはModality as a Soft Promptと呼ばれ、すでにByteDanceに大きな収益をもたらしています。
ByteDanceについて少し教えていただけますか?私たちは動画、テキスト、ニュースなどのマルチモーダルメディアを共有しています。Generative AIについては、認識ベースのAIと比較すると、主に個人に力を与えることを目的としています。コーディングや画像作成の能力を高めることができます。エンドユーザーはカメラではなく人間なので、人々自身に力を与えることができるのです。
聴衆の皆様に改めてお伝えしますが、私たちは4つの主要なトレンド、すなわちLLM、SLM、Multi-modal model、そしてAgentについて話してきました。ByteDanceのWangpengさんは、研究と自社での経験の両方から、生成AIの研究におけるMulti-modal modelに焦点を当てています。Multi-modal modelとは実際にどのようなものか、もう少し詳しく教えていただけますか?これは人間ができることを模倣しています。人間には目があり、情報の70%は視覚から得ています。また耳もあります。Multi-modal modelの入力も同様で、画像、動画、音声があり、出力も画像、動画、自然言語が可能です。
Multi-modal modelについて、次のブレークスルーは、高品質なアノテーションを自動生成するためにAgentを組み込むことだと考えています。現在でも、アノテーションは人手に大きく依存しています。このアノテーションの問題を解決し、高品質なデータを簡単に得られるようになれば、AIは新たなブレークスルーを迎えるでしょう。課題としては、モデルが非常に大きいため、量子化などの手法でパフォーマンスや精度を犠牲にしたくないということがあります。最高のパフォーマンスでオンライン化するには、数千台のGPUや専用チップが必要になります。
このモデルは、実質的に私たちのすべてのビジネスラインで活用できます。従来の認識ベースのモデルを完全に置き換えることができます。TrainiumとNeuron SDKを使用したMulti-modal modelの経験について教えていただけますか?限られたGPUでも約20%のスループット向上を達成し、さらに少なくとも13%のコスト削減も実現しました。つまり、高性能、低コスト、そしてグローバルな可用性が、Inferentia2を選択した理由というわけですね。
ソフトウェアスタックであるNeuron SDKの使用に関して、最初は多少の困難がありましたが、AWS のエンジニアと協力して、Hugging Faceモデルをニューロン形式に変換する方法などの課題を解決しました。最近では、このようなモデル変換を支援するNKIなどの新しいライブラリがあると聞いています。NKIはNeuron Kernel Interfaceの略で、基本的にNeuron SDKを使用してカーネルを開発する方法の1つです。これは、ハードウェアアーキテクチャとソフトウェア、そして機械学習が提供するカスタムオペレーターについての深い理解が必要な、非常に高度な機能の1つです。
この分野は急速に進化しており、他の講演者からも聞いたように、トレンドを含む生成AIのポートフォリオは急速に発展しています。現在、自然言語と単一のモダリティについては非常によく対応できています。動画については、空間的・時間的な情報を持っており、動画理解は現在非常に初期段階にあります。動画を十分に理解できるようになれば、それはロボット工学の頭脳のようなものになるでしょう。実世界と相互作用して多くの問題を解決できるロボット工学の会社が出てくるはずです。AIは実際に人間の能力を再現しているのです。
私たちは毎日数十億件以上のマルチメディア動画による推論を処理しています。最終的にAIは人類全体に恩恵をもたらすと考えています。すべての人のためのものである限り、誰にとっても良いものとなるでしょう。AWSが持つインフラと皆様が持ち込む技術を活用して、それをアクセス可能で拡張可能なものにするため、私たちは皆様の企業と共にこれに取り組んでいます。本日は、LLM、Small Language Model、ドメイン適応、蒸留、Multi-modal Model、そしてAgentic AIテクニックなど、現在のGenerative AI分野でトレンドとなっている新しい技術について説明しました。
また、AWSインスタンスを使用してGenerative AIワークロードをデプロイし、他のコンピューティングオプションでは実現できないような規模で、より優れたパフォーマンス、より良い価格、そしてイノベーションを実現しているお客様の事例についても伺いました。
これから10-15分間をQ&Aに充てたいと思います。これを2つのパートに分けたいと思います。まず、プレゼンテーションを聞いていて私の頭に浮かんだ質問を登壇者の方々にさせていただきます。その後、私たちは壇上を降り、皆様からの質問がありましたら、ヘッドセットを外していただいて、5-10分ほど質問にお答えしたいと思います。では、皆様をお迎えしたいと思います。素晴らしいプレゼンテーションをありがとうございました。
AIチップの重要性と今後の展開に関する質疑応答
最初の質問は鈴木さんへです。日本語のLLMの適応についてお話しいただきましたが、一般的に言語モデルは英語以外の言語向けにトレーニングされていないという、低リソース言語に関する大きな課題を解決されていると理解しています。この分野はどのような方向に向かうとお考えでしょうか?この傾向は続くとお考えですか?それとも、Foundation Modelを構築する企業がこの問題を解決するので、Richoのようなソリューションを構築している企業がそこに投資する必要がなくなるとお考えでしょうか?
いずれはOSモデルやProモデルが大規模モデルをカバーするようになると予想していますが、残念ながら、例えば現時点では語彙やトークン化の効率性など、特定の制限があります。そのため、特定の言語に焦点を当てることができません。したがって、そのようなモデルを特定の言語に適応させる必要性は依然として残るでしょう。もう一つ質問があります - プレゼンテーションの中で、蒸留やエージェント、推論についても言及されていましたが、これらが実際に意味することと、そこで何が起きているのかについて説明していただけますか?
今日は70億パラメータ以上の大規模モデルについてお話ししましたが、他の講演者も触れていたように、より小規模で優れたモデルを求める市場ニーズは常に強くあります。量子化など様々なアプローチがありますが、Distillationは非常に有望な手法の一つです。実際、最近のLlama 3.2は、より大きなモデルからDistillationによって開発された3億パラメータのモデルです。これは非常に有望な技術であり、私たちを含む多くの企業が今後活用していくことになるでしょう。
次の質問はMarkへのものです。SLMsについてお話しいただきましたが、御社は小規模言語モデルのトレーニング、Fine-tuning、デプロイメントの先駆者ですね。この分野の次のステップは何でしょうか?必要な機能の精度と適切性を維持しながら、どこまでモデルを小さくできるのでしょうか?素晴らしい質問ですね。まだ答えは分かりませんが、目標はより小さく、より強力にし続けることです。デバイス向けの1~3億パラメータの優れたモデルがありますが、これが次の大きなステップです。Apple Intelligenceは30~40億パラメータですが、もしスマートフォンで実行でき、将来的に32Bや70B相当の性能を持つモデル(デバイス上で実行されるサイズではなく、3Bでそのような性能を持つ)を実現できれば、それが次の波、次のフロンティアになると思います。クローズドソースのプロバイダーが大規模モデルを作り続け、オープンソースがそれと競い合う領域になるでしょう。
Agentに関して、数十から数百のモデルを扱う場合、それらのモデルは小規模である必要があります。これにより、一つの巨大なモノリシックモデルに依存するのではなく、協調して複合的な知能を構築することができます。そのため、この分野を発展させるためにも小規模モデルが重要です。私たちのOrchestraシステムのポジショニングについてどう思われますか?Agentアーキテクチャにおける小規模モデルの集合体を想像できますね。
Routerがあり、一つのヘッドモデルがあります。以前はOpenAIがその名前を使う前は、これをSwarmと呼んでいました。32Bから70Bのジェネラルな主要モデルがあり、その下に補完的なモデルがあります。7Bのファンクションコーリングモデル、7Bのコーディングモデル、7BのSQLモデル、高度な推論モデルなどです。理論的には、これらの7Bモデルは全てCPUで実行でき、GPUを必要としません。つまりGravitonで1時間単位で実行できます。これらのモデルで、Small Language ModelのAgentワークフローの80-90%をカバーできます。
コスト削減効果は絶大です。これらの専門化されたモデルでギャップを埋めることができれば、単純に32BモデルをClaudeモデルと比較する必要はありません。Hermanがうなずいているのを見ましたが、ChatGPTが登場し、誰もが超大規模モデルについて話し、誰が最大で最も強力なモデルを持つかを議論していた時、IBMでは私は一日中SLMsについて話していましたが、誰も本当に注目していませんでした。その後、これらのスタートアップ企業がIBMよりも速く動き、より迅速に製品を提供し始め、現在では市場は完全にその方向に向かっています。特にマルチジェンシステムにおいてはそうです。
デバイス上、つまり私たちのスマートフォン上で動作するこれらの小規模モデルのパワーを想像してみてください。ラップトップと比べて100倍から1000倍もの規模になるのです。これは驚くべきことです。彼らが行っているのは本当に素晴らしいことです。SLMs、つまり特定のタスクに特化した小規模モデルに注目してください。あまり触れられていなかった重要な点として、適切な評価フレームワークがあります。これらのモデルを適切な評価ツールキットでテストし、特定のタスクに対して確実に機能することを確認することが重要なのです。1000の異なることができる超大規模なモデルは必要ありません。1つか2つのことを非常にうまくこなせればいいのです。おそらく、複数のモデルを組み合わせてオーケストレーションすることになるでしょう。
私たちは、チップレベル、インフラレベル、そしてソフトウェアレベルでのイノベーションを推進する上で、皆様とのパートナーシップを大切にしています。皆様からのご要望のすべてが、チップやAWS Neuron SDK、インフラストラクチャにおけるこれらの機能の構築に役立っています。では、AIチップについての最後の考えを伺いたいと思います。AIからROIを得る時期に来ていると思います。パイロットから本番環境への移行時には、TCOコストに注意を払うことが重要です。そのため、本番環境への移行時には、どのインフラストラクチャやチップでAIを実行するかを慎重に選択する必要があります。
企業、顧客、ユーザーがNVIDIAハードウェア以外でAIワークロードを実行できるようにすることは、コストパフォーマンスの面でも、市場全体の分散という面でも、誰にとってもメリットがあります。市場で1社が完全に勝利するということは、実際にはほとんど見られません。したがって、今こそ他のチップで追いつくチャンスです。NVIDIAのGPUの供給不足という状況も、InfertiaやTrainiumチップの採用を後押しする要因となるでしょう。エンジニアリングチームは努力を続け、追いつく必要があります。プレッシャーをかけ続けることが重要で、可能性は無限大だと思います。
今日はLLMについて話しましたが、彼が紹介したように、最近はマルチモーダルモデルがより重要になってきています。そのため、トレーニングやインファレンスでは、より多くの異なるデータソースやデータストリームを考慮する必要があります。したがって、より優れたハードウェアやトレーニングインフラストラクチャへの要求は今後も続くと思います。それは今年も来年も、そしてその先も続くトレンドになるでしょう。これは私の会社からの要望でもあります。より良いパフォーマンスを得るために、そのような強力なトレーニング機能を活用できることを期待しています。
これは基本的に、以前のゴールドマネーのようなものです。ゴールドマネーを持つことは必須でした。そして、これはAIの初期段階なのです。現在の必要性は、おそらく100倍から200倍になるでしょう。私たちはAIをまだ始めたばかりなのです。皆様、ありがとうございました。プレゼンテーションから多くを学ばせていただきました。聴衆の皆様も同様だと思います。これで壇上を降り、スピーカーの方々に質問していただけます。ありがとうございました。
※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。





































Discussion