re:Invent 2024: AWSのEC2最新機能 - Nitro v6、Graviton4、AI向けTrainium
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
📖 AWS re:Invent 2024 - What’s new with Amazon EC2 (CMP101)
この動画では、AWS EC2部門のVPであるWillem Visserが、EC2の進化と最新機能について解説しています。2023年に510億を超えたEC2インスタンス数や、AWS Nitro v6の発表、Graviton4プロセッサーの性能向上など、具体的な進化の過程が示されます。Capital OneのVPであるEd Petersが、850種類以上あるインスタスタイプの中から最適なものを選ぶための意思決定プロセスについて解説し、さらにAmazon EC2 Instance Selection Assistantという生成AI搭載の新機能が紹介されます。また、Trainium2やTrainium3といった最新のAIチップの詳細や、EC2 UltraClusterによる数十万個のチップのスケールアウトなど、AIワークロード向けの革新的な機能についても説明されています。
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。
re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!
本編
AWSのEC2サービス:過去から現在への進化
ようこそ。こんなにたくさんの方々にお越しいただき、大変嬉しく思います。私も非常に興奮していますが、「What's New in EC2」へようこそ。私はWillem Visserと申します。AWS EC2部門のVPを務めています。私のAWSでのキャリアは、南アフリカのケープタウンという街で10年以上前に始まりました。入社当時、チームからElastic Compute Cloudというサービスを構築していると聞かされました。そのサービスが、現在ではEC2として知られているものです。 10年以上前にEC2を作り上げるには、コンピューティングのあり方を根本から見直す必要がありました。そして今日も、お客様からのご要望に応えるため、私たちはクラウドの機能を継続的に再構築しています。
クラウドコンピューティングを最初に導入した時、私たちには2つの主要な目標がありました。その目標は今でもAWSの提供するサービスの原動力となっています。1つ目はシンプルです。お客様があらゆるワークロードをクラウド上で安全かつ確実に実行できるツールとサービスを提供することです。2つ目も同様に重要で、クラウドでより高いパフォーマンスをより低コストでお客様に提供することです。 AWSが始まった当初、バージニア北部に1つのリージョンしかありませんでした。現在では、世界中に34のリージョンがあり、さらに6つを建設中です。108のアベイラビリティーゾーンと41のLocal Zonesを提供しており、世界245の国と地域にサービスを展開しています。そしてもちろん、これらの拡大は続いています。
2023年に起動したEC2インスタンスの数は510億にも上ります。2024年では、すでにその数字をはるかに超え、数百億のインスタンスに達しています。2006年にEC2を最初に導入した時は、m1インスタンスという1つのインスタンスタイプしかありませんでした。そして、お客様のニーズに応えるため、私たちは継続的にインスタンスタイプを追加し、お客様があらゆるワークロードをクラウドに移行できるようにしています。
AWSは、お客様が最高の技術革新を求めて集まる場所であり続けており、私たちは進化し続けるニーズに応えるため、新しい進歩を継続的に提供しています。スライドをご覧いただくと分かりますが、私たちはIntelベースのインスタンスをクラウドに導入した最初のクラウドプロバイダーでした。また、AMDベースのインスタンスをクラウドに導入した最初のプロバイダーでもあります。Appleプロセッサをクラウドで提供している唯一のクラウドプロバイダーでもあります。そしてもちろん、私たち独自のAWS Gravitonプロセッサも提供しています。GPUは今では当たり前のように思われるかもしれませんが、実は私たちはNVIDIAと協力してNVIDIAプロセッサをクラウドにもたらした最初のクラウドプロバイダーでもありました。
AWS Nitroシステム:クラウドコンピューティングの革新
2006年のサービス開始時、最初のインスタンスは1.7GHzのXeonプロセッサと1.75GBのRAMを搭載していました。今では想像もつかないほど昔のことです。160GBのローカルディスク(回転ディスク)と250Mbpsのネットワーク帯域幅を備えていました。そして、皆さんはご存知かもしれませんが、当時このインスタンスの料金は1時間あたり10セントでした。この最初のインスタンスを導入した後、多くのワークロードには異なる特性が必要であることに気付き、時間とともにコンピュート最適化やメモリ最適化されたインスタンスを導入する必要性が出てきました。
この話をする上で、Nitroについて触れないわけにはいきません。AWS Nitroは、仮想化機能を専用のハードウェアとソフトウェアにオフロードするEC2の中核コンポーネントへと成長しました。多くのEC2イノベーションを実現する鍵となってきたのです。
AWSの初期の頃、インターネット経由でアクセスできる仮想化されたコンピュートインスタンスを時間単位で借りるという考え方は、前例のないものでした。多くの人々が、それは不可能だ、うまくいかないだろうと言いました。しかし、仮想化によるマルチテナンシーは、私たちの成長とともに今でも進化し続けている破壊的な力となりました。Amazon EC2の初期には、ソフトウェアベースのハイパーバイザーで多くの課題に直面しました。当時を振り返ると、すべてXenベースで、CPUとメモリのオーバーヘッドが顕著で、これが仮想マシンの全体的な価格性能に大きな影響を与えていました。私たちは何年もかけてハイパーバイザー層を最適化してきましたが、その進歩は線形的で、規模と複雑さの両面で急速に進化するお客様のワークロードに追いつくには不十分だとわかっていました。
このような背景から、AWS Nitroが誕生しました。最も基本的なレベルでは、Nitro Systemには、ホスト上でネットワーキング、ストレージ、セキュリティ機能を提供するNitroカードがあります。その上でNitroハイパーバイザーを実行し、さらにその上で皆様の仮想マシンとアプリケーションが動作します。Nitroにより、AWSはより優れた全体的なセキュリティと暗号化態勢を提供できるようになりました。セキュアブートを可能にし、アクセスを制限しています。2007年にNitro Systemを立ち上げた際、オペレーターによるお客様データへのアクセスを制限するユニークなアーキテクチャを実現しました。これは非常に重要なポイントです。なぜなら、AWSの誰も、どのサービスも、Amazon EC2インスタンスで使用中のデータにアクセスできないことを意味するからです。これがNitroの約束なのです。
商用チップの数百万個に影響するセキュリティ脆弱性に関する最近のヘッドラインを考えてみてください。AWSでは、セキュリティはJob Zeroです。Nitroセキュリティチップは、インスタンスのハードウェアとファームウェアの両方を継続的に監視・検証することで、サーバーを不正な改変から保護しています。2023年、主要なサイバーセキュリティコンサルタントであるNCC Groupは、Nitro Systemには、AWSの外部または内部の誰もがEC2のお客様ワークロードにアクセスできるメカニズムが存在しないことを検証しました。
長年にわたり、私たちはNitro Systemアーキテクチャの5世代を導入してきました。そして、各世代は、レイテンシーの低減、スループットの向上、1秒あたりの処理パケット数の増加など、多くの重要な側面で改善を重ねてきました。5世代のNitroカードを提供した後も、私たちのイノベーションへの取り組みは続いています。本日、私は大変誇りを持って、Nitro v6という第6世代のNitroカードを発表させていただきます。この最新イテレーションは、1枚のカードで400ギガビット以上のスループットを実現し、クラウドにおいて前例のないパフォーマンス、スケール、機能性を解き放ちます。これは、お客様が必要とする更なるネットワーキングと帯域幅速度を提供するという私たちのコミットメントを表しています。
Nitro v6では、パフォーマンスとセキュリティの両面で改善を実現しました。お客様が大規模なワークロードのトレーニングやファインチューニングのために、アクセラレーター搭載インスタンスのクラスターを展開する際、それらのインスタンスを高い稼働率で運用するために、非常に高いスループットでデータを供給できることが求められています。そこで本日、Nitro v6とGraviton4プロセッサーを搭載した新しいC8gn インスタンスの提供開始を発表できることを大変嬉しく思います。C8gnを使用することで、お客様はS3やデータレイクからのデータの取り込み、処理、供給を信じられないほど高いスループットで実行でき、パフォーマンスとスループットを向上させながらコストを最適化することができます。C8gnインスタンスは、多くのお客様が利用している最も一般的なファイルシステムであるLustreのような高性能ファイルシステムの実装に最適です。C8gnインスタンスは、既存のネットワーク最適化インスタンスと比較して、最大400Gbpsのネットワーク帯域幅と、最大2倍のパケット処理性能を提供します。
AIをはじめとする、あらゆるワークロードをサポートするために、私たちはさらに多くの取り組みを行っています。すべてのインスタンスポートフォリオにわたってイノベーションを推進するため、お客様と密接に連携を続けています。
AWS Gravitonプロセッサー:パフォーマンスと効率性の向上
ここで、皆様の多くがご存知かと思いますが、AWS Gravitonについて簡単にご説明させていただきます。Gravitonは、最高の価格性能比を実現するためにAWSが設計した汎用プロセッサーです。ARMインストラクションセットを採用しており、クラウドでより優れた価格性能比を提供したいという私たちの思いから生まれました。そのために、クラウド向けに設計され、クラウドワークロード用に最適化されたプロセッサーを開発する必要がありました。
これは印象的なスライドで、Daveのキーノートをご覧になった方々もいらっしゃるかと思います。過去2年間で、私たちのデータセンターに導入された新しいCPU容量の50%以上がAWS Gravitonによるものでした。これは、お客様からの信頼の高さとGravitonの人気を示す驚くべき数字です。この数字は、他のすべてのプロセッサータイプを合わせた量を上回っているということを意味します。
今年初め、私たちは最も強力なプロセッサーとなるGraviton4を発表しました。最も強力であるだけでなく、これまでで最もエネルギー効率の良いプロセッサーでもあります。 Gravitonは、データセンターの他のチップと比較して最大60%少ないエネルギーで動作します。Zendeskのようなお客様は、AWS Gravitonインスタンスを使用することで、月間の炭素排出量を50%以上削減することに成功しています。
Benchmarkについてもお話ししたいと思います。皆さんの多くがBenchmarkを使用した経験があり、Benchmarkに注力されていることと思います。現在、多くのチップ設計者は、Micro Benchmarkテストから逆算して設計を行い、チップの改良を進めています。これらのBenchmarkはよく理解されているからです。しかし、Micro Benchmarkは実際のワークロードとは異なります。実は、両者には大きな違いがあり、このミスマッチは、本番環境での最適なパフォーマンスには結びつかない目標に向かってハードウェアが設計されていることを意味します。これは、学校のテストに向けて勉強をしていたものの、実際にはそのテストの完全な習得にはもっと多くの理解が必要だと気付くようなものです。
Benchmarkを視覚化するために、レーダーグラフを使用してみましょう。このグラフ上の1つのポイントで、特定のワークロードの特性を把握することができます。各軸は異なるチップ設計の特性を表しており、その値は、全体的なパフォーマンスを決定する上でのワークロードの感度を示しています。 プロセッサは2つの部分に分けて考えることができます。フロントハーフは命令を受け取り、そのパフォーマンスは分岐の数、分岐ターゲット命令などの要因の影響を受け、これらはすべてフロントエンドのストールにつながる可能性があります。一方、バックハーフは命令を実行し、L1、L2、L3キャッシュのデータや命令ウィンドウサイズなどの特性に影響を受け、これらはすべてバックエンドのストールを引き起こす可能性があります。
フロントエンドの統計を左側に、バックエンドを右側にプロットすることで、ワークロードがフロントエンドとバックエンドのどちらに偏っているかを一目で確認することができます。値が高いほど、その特性がパフォーマンスにより関連性が高いことを示しています - 値が小さいほど良いということです。 ここに示す従来のBenchmarkテストでは、L3キャッシュが大量のバックエンドストールで圧迫されているのが分かります。先ほど2つの部分について説明しましたが、これはCPUパイプラインのバックエンドが十分な処理を見つけられていないことを示しています。
グラフの右側では感度が見られますが、左側ではあまり見られません。よく考えてみると、これは理にかなっています。ほとんどのBenchmarkは、抽出された小さなカーネルで、本質的に同じことを繰り返しループで実行しています。これらの特徴により、分析や理解は容易になりますが、命令の種類はそれほど多くなく、単純なループ以外の分岐もあまりありません。
ここでは、Cassandra、Groovy、Nginxという、 AWSで顧客が実際に実行している一般的なワークロードの組み合わせを見ています。これらの実際のワークロードを同じBenchmarkと比較すると、ボトルネックが全く異なる要因にあることが分かります。特に、これらのワークロードは、他のMicro Benchmarkでは問題にならなかった要因の影響を受けています。分岐予測の失敗が多く、L1およびL2キャッシュからの命令ミス、TLBミスが多く発生しています。先ほど見たBenchmarkとは異なり、フロントエンドがストールを引き起こしており、先ほどのBenchmarkで見られたバックエンドストールではなく、フロントエンドストールが高くなっているのです。
MySQLをGraviton3およびGraviton4上で実行するような実際のワークロードを分析すると、このスライドでご覧いただけるように、あらゆる面で感度が低くなっています。なお、ここでは数値が小さいほど良いことを覚えておいてください。その結果、このMySQLワークロードではパフォーマンスが向上し、同じCPU数でGravitonがより多くの処理を実行できるようになりました。お客様は通常、実際の業務においてMySQLを実行する際、Graviton3と比較して40%のパフォーマンス向上を体験されています。
Graviton4について見てみましょう。各Graviton4 CPUは、Graviton3と比較してコア数が50%増加し、L2キャッシュは2倍になっています。Graviton4では、高性能データベース、インメモリキャッシュ、ビッグデータ分析ワークロードをサポートするため、前世代と比べてCPUとメモリを3倍までスケールアップすることが可能になります。実際のワークロードのパフォーマンスを最適化することに加えて、Graviton4はホストの起動プロセスの各段階を検証、監視、保護することでセキュリティの基準も引き上げています。DRAMからNitroカードへの高速ハードウェアインターフェース、およびCPU間のすべてのコアリンクを完全に暗号化しました。
2024年には、皆様にお馴染みの第4世代インスタンスファミリー全体を一般提供しました。C8g、R8g、M8gインスタンスは、これまでで最もパワフルなプロセッサです。先ほど、コアとキャッシュの追加、そしてメモリ帯域幅の向上についてお話ししましたが、これらすべてが前世代のプロセッサと比べて30%の計算性能向上と、高性能データベース利用を可能にする3倍のメモリ処理能力として実現されています。そして、先ほど申し上げたように、より省エネルギーであることもお忘れなく。
Capital OneのCloud Evolution:効率的なクラウド利用への取り組み
多くのお客様が、より多くの節約を始めるためにより詳しい情報を必要としていることに気づきました。今週も、いつ移行すべきか、どこに移行すべきか、そしてどのように判断すべきかについて、多くのお客様との会話がありました。そこで、AWS Savings Dashboardをご紹介したいと思います。これは簡単にアクセスでき、現在のGraviton使用状況について洞察を得ることができます。Graviton Savings Dashboardは、ワークロードに関する洞察を提供し、移行に関するガイダンスとアドバイスを提供し、最終的には総所有コストで実現可能な潜在的な節約の全体像を示す包括的なリストを提供します。
クラウドベースのアプリケーションのインスタンス選択パフォーマンスとレジリエンスをどのように管理するかについて考える際、常にクラウドエコシステムを管理しているお客様からお話を伺うのがベストだと考えました。そこで、Capital OneのVPおよびDistinguished EngineerであるEd Petersさんをお迎えして、さらに詳しくお話を伺いたいと思います。Ed、ようこそ。ありがとうございます。
みなさん、こんにちは。Willの紹介にもありました通り、私はCapital Oneのディスティングイッシュド・エンジニアです。この会社には約4年間在籍しています。 Capital Oneに入社する前は、中小規模のソフトウェア会社でCTOやチーフアーキテクトを務めていました。これについては、後ほど特定の理由があってお話ししました。
私のセクションのトピックは、EC2に特化したものではありません。実際には「選択」についてのお話です。今週、Billの今日の講演や、Swamiの先ほどの講演、そして昨日のMattの講演などをお聞きになった方はご存知かと思いますが、Amazonは常に革新を続け、新しいインスタンスタイプ、新しいチップファミリー、新しいネットワーキングやストレージのオプション、新しいモデルを次々と導入しています - 彼らは止まることを知らない狂人のようです。これは私たち顧客にとって、途方もない選択肢の数に直面することを意味します。何を基盤として構築すべきか?また、後になって、私たちのビジネスやアプリケーションにとって正しい選択をしたという確信を持てるのかという問題にも直面します。
アジェンダとしては、まず私たちのクラウドの歴史、クラウドの採用についての考え方、そしてCloud Evolutionチームがクラウドでの適切な意思決定を確保する上で果たす役割についてお話しします。 また、適切な分散型意思決定を推進してきた中での技術的・組織的な学びについてもお話しします。そして、この進化にどのように対処してきたかについても触れます。実は花火や虎、金メッキのバイクを使ったフィナーレを計画していたのですが、アートチームに強く却下されてしまったので、おそらくそのまま静かにステージを去ることになると思います。でも、コンテンツの本質的な部分は皆さんにとって有意義なものになることを願っています。
Capital Oneが2016年にクラウドへの完全移行を決定した際、いくつかの考えがありました。まず、コストやスケーラビリティ、安定性といった運用面での重要な成果が得られることを知っていました。また、急速に成長する開発者チームに権限を与えることになるということも認識していました。当時、私たちは開発者が自分たちが構築するソリューションの所有権を持ち、顧客を喜ばせ、より成功に導くための適切な選択ができるようにしたいと考えていました。
私たちは銀行なので、当然ルールは常に存在します。会場にいるCapital OneのCISOや同僚たちも証言できると思いますが、確かにルールは存在します。しかし、クラウドへの移行の根底には、いくつかの重要な原則がありました。一つは、多くの人が知っている「You build it, you own it(作ったものは自分で責任を持つ)」という原則です。開発者にシステムの運用責任を持たせることで、夜もぐっすり眠れるような、より良い決定を下すように促すという考え方です。もう一つの原則は「Buffet rules(ビュッフェのルール)」という考え方です。開発者がソリューションを成功させるために必要なクラウドリソースにアクセスできるようにしたいと考えていますが、同時に、彼らが取得したものを効果的に活用し、賢明な判断を下し、会社のリソースを効果的に投資することも確実にしたいと考えています。
私たちのCloud Evolutionチームは、企業全体でこれを確実に実行する上で重要な役割を果たしています。 彼らは、多くの企業では単なるコスト削減組織と思われがちなFinOpsプラクティスを運営していますが、実際には分散的な形で適切な意思決定を行うことを確保する役割を担っています。彼らは長期的な容量計画の責任を持ち、年次および長期の容量計画イニシアチブを実施し、Reserved Instanceの購入を担当しています。今日はそのようなグローバルフリート管理についてはあまり触れません。代わりに、開発チームが自分たちの意思決定の影響を理解し、より良い判断を導くために、どのように情報とセルフサービスツールを提供しているかについてお話しします。また、彼らはCapital Oneに代わって分析を行い、特に大規模なアプリケーションや頻繁に使用するサービスを調査して、企業全体で実現できる大きなコスト削減機会や効率化の機会を特定しています。
クラウド最適化:Capital OneのデータドリブンアプローチとGPU活用
まず、彼らが構築したツールをご紹介したいと思います。ご覧いただいているのはOptic Cloudです。これは、チームがAWSから収集したデータの上に構築した社内ツールで、すべての開発者がアクセスできます。画面には、単一のアプリケーションのクラウド使用状況を示すダッシュボードが表示されています。まず画面の特定の部分に注目してください。下部を見ると、これはEC2ベースのアプリケーションなので、このアプリケーションを動かすEC2インスタンスについてかなり詳細な情報が表示されています。インスタンスとそのコストだけでなく、使用率も確認できます。この場合、Optic Cloudは、このチームに改善の機会があることを特定しました。一般的な慣行として大きなインスタンスを割り当てていますが、少し大きすぎるインスタンスを割り当てているため、適切なサイズに調整してコスト削減を実現できる機会があります。スクロールすると、RDSクラスターのサイズ最適化、EBSボリュームの使用状況、DynamoDBの使用状況など、ソリューションの他の側面に関する最適化推奨事項のセクションが表示されます。Capital Oneでは、Serverlessを大規模に展開しています。
拡張可能なアプリケーションを通じてServerlessの最適化推奨事項を実装しています。私たちのプラットフォームチームは、機械学習フィーチャープラットフォームなどのコンポーネントを構築しています。チームがこれらのプラットフォームを使用する際には、使用に関する決定と最適化を適用できる選択肢があり、これらのプラットフォームには内部チャージバックモデルがあります。そのすべてのデータがOptic Cloudに取り込まれ、チームは自分たちの決定と月間支出への影響を単一の画面で確認することができます。
アプリケーションの月間支出に加えて、チームが開発し継続的に改良している計算式に基づいて、支出効率性の指標を算出しています。この指標は、すべてのチームに自分たちの決定について考えるよう促します。もしあなたのアプリケーションがCapital Oneに月50万ドルのコストをかけているなら、コストに注意を払う強い動機があります。たとえ月800ドルのコストであっても、効率化の機会はあります。チームがコストを月800ドルから200ドルに削減した場合、それは称賛に値する成果であり、効率性指標によってそれを評価することができます。
クラウドの隠れたヒーローの1つは、実はビリングです。AWSの請求書は非常に詳細で、CPU、ネットワーク、ディスク使用量のミクロ単位での明細を提供します。Capital Oneでは、すべてのクラウドリソースに所有する開発チームとアプリケーションを示すタグを付ける規律を持っています。これはガバナンスに使用されますが、ビリングデータの結合キーとしても使用されます。アプリケーションからのメトリクス、ログ、CPU使用率、ネットワーク使用率、ディストレージなどの運用テレメトリーと組み合わせることで、すべてのアプリケーションチームが自分たちの決定とリソース効率の影響を理解するためのインサイトを生成できます。これはAWSのビリング情報とリソースタグ付けの詳細さと量によって実現されており、オンプレミスでは不可能だったことです。
私たちが時々誤解しているもう一つの側面は、エラスティシティです。通常、エラスティシティは高負荷時のスケールアップの観点で議論されますが、真の魅力は、それらのリソースを返却できる能力にあります。次のような思考実験を考えてみましょう:もしオンプレミスのデータセンターチームに、1週間のテストのために特殊な高度にカスタマイズされたハードウェアインスタンスの調達と設定を依頼したら、おそらく彼らは抗議して辞めてしまうでしょう。 クラウドでは、新しいインスタンスタイプを割り当ててテストし、実際のユースケースに基づいて深い洞察を得ることができます。私たちのCloud Evolutionチームは、実際のCapital Oneのワークロードにおけるパフォーマンスを理解するために、新しいインスタンスタイプやチップファミリーを常にベンチマークしています。
チームが最適な利用率を考慮せずに、48個のエクストララージインスタンスのような大きなインスタンスを選択してしまう一般的なパターンを特定しています。私たちの分析によると、多くのアプリケーションは、CPU使用率、CPUスケジューリング、またはメモリ帯域幅の制限により、そのハードウェアを最大限に活用できないことがわかっています。一般的に、最適なハードウェア利用率を得るには、約88 vCPUでピークを迎え、クラスターを水平方向にスケールすることを推奨しています。収集したデータがこれらの結論を裏付け、開発者が情報に基づいた決定を下すのに役立っています。
柔軟性に関して、特に新しいインスタンスタイプやチップファミリーについては、いくつかの課題に直面しました。AWS Gravitonを早期に採用した際、キャパシティの可用性を理解するためにAWSと密接に協力する必要がありました。AWSは無限のキャパシティという幻想を見せていますが、物理的な制限が存在し、フリート管理における協力が必要です。数千のノードを持つJenkinsクラスターなどの大規模フリートアプリケーションでは、利用可能なインスタンスタイプをより柔軟に受け入れることができたはずです。この柔軟性には、異なるインスタンスタイプの混合フリートの運用も含まれます。
Cloud Evolutionは、開発パイプラインチームと協力して、アプリケーションをより柔軟にし、ICEs(Insufficient Capacity Errors)を回避するのに役立つレバーを開発チーム向けに組み込む作業を進めています。AWSはサプライチェーンの達人として、継続的に改善を重ねています。これは新しいインスタンスタイプでは常に課題となりますが、イノベーションの最前線に立ち続けようとする私たちにとって、継続的に取り組むべき課題です。
GPUハードウェアは非常に興味深い存在です。GPUのサプライチェーンにおける業界全体の課題は周知の事実です。Capital Oneもその例外ではありませんが、GPUの利用率をより詳しく調査する中で興味深い発見がありました。AIの開発や独自の基盤モデルの構築を進めていますが、GPU利用率の指標が見かけほど良くないことに気づきました。高いCPU使用率は一般的によく理解されており、アプリケーションが非常に忙しいことを示す良い指標です。しかし、GPU利用率の指標は、実際にはマルチコアGPUのコアの一部しか使用していないことを示している可能性があります。
私たちのチームは、IntelやAMD、その他の業界パートナーと協力して、GPUベースのシステムの実際の使用状況をどのように測定できるかについて、メトリクスの理解を深めてきました。従来はCPU使用率やIOPSのみを考慮していたパイプラインに、電力消費量を含むそれらのシグナルを確実に取り込めるよう、テレメトリベンダーと協力してきました。必要に応じて電力メトリクスも追加しています。これにより、サーバーを見て、CPU使用率が低く、GPU使用率が高いにもかかわらず電力消費が少ない場合、MLワークロードに非効率が生じている可能性があると判断できます。この機能は、開発者が大規模な判断を下す際に非常に役立ちます。
組織規模に応じたクラウド最適化戦略
Cloud Evolutionチームの基本原則の1つは、私たちのインフラ全体にわたる「ピーナッツバター的な」コスト削減です。開発チームに詳細な情報と推奨事項を提供することで、最適化の判断を行えるようにしています。私たちの規模では、広範なフットプリント全体での小さな節約も確実に積み重なっていきます。これは本当に大きな違いを生み出し、エッジ周りでこれらの段階的な判断を推進することで、大きな節約を実現できています。そして、私が「ピーナッツプラント」と呼ぶもの、つまり効率化を推進できるやや集中的なコスト領域があります。
ピーナッツプラントの具体例として、特定のチームと協力して最適化できる大規模アプリケーションが挙げられます。Cloud Evolutionチームは、大規模なSplunkクラスターを運用している私たちのObservabilityチームに働きかけ、使用状況と選択された特殊なインスタンスタイプを詳細に検討し、Observabilityプラットフォームの大幅なコスト削減を実現しました。ただし、Observabilityは重要であり、オーバープロビジョニングが有用な場合もあるため、要件とのバランスを取る必要があります。これらはすべて、分析して判断しなければならない一連の決定とトレードオフなのです。
ピーナッツファームは、チームが行うキャパシティプランニングに関する大規模で長期的な全フリート最適化作業を表しています。小規模企業のCTOだった時は、月額500ドルの追加費用が発生する購入について、CEOと議論したものです。Capital Oneでは、大きな節約に対する見方が異なります。例えば、1万人以上の開発者がクラウドで作業している場合、その層全体にわたるピーナッツバター的な節約は非常に意味があり、そこに投資した分は何倍もの見返りがありました。チーム全員に石を投げれば当たるような規模のスタートアップでは、ピーナッツバター的なアプローチはそれほど有用ではありませんでしたが、最適化の可能性を見出すため、主要な使用領域を検討する取り組みを行っていました。
使用する具体的な手法は、組織の規模によって異なり、使用する具体的な閾値も同様です。スタートアップでは、ベンチャーキャピタルから資金を調達し、資金繰りを心配しなければならない状況で、月額1000ドルの追加費用は大きな意味を持ちます。規模が大きくなるにつれて、ボトムラインよりもトップラインを重視するようになるかもしれません。さらに規模が大きくなると、専任の取り組みを動機付けるのに十分な重要性があると考える数字が変わってくる可能性があります。これは状況によって結果が大きく異なる分野です。
これまでの内容を踏まえて、いくつかの考察を共有させていただきたいと思います。まず最初に強調したいのは、Amazonは常にハードウェア、その上で動作するソフトウェア、そしてそのソフトウェアから構築されたマネージドサービスといったオプションを進化させ続けているということです。クラウドは、私たちがそのプラットフォーム上で行った決定を理解する上で、驚くべき力を与えてくれます。使用状況を最適化し、適切な判断を下すためには、利用可能なものを理解し、それをどのように活用できるかを検討し、さらに後から実際の使用状況を確認するという、事前および継続的な投資が必要です。組織の規模によって、その方法は異なってくるでしょう。
AWSの最新EC2インスタンスと購入オプション
Capital Oneでは、私たちの組織規模に合わせてこの分野に特化してきました。これまでの学びが皆様のお役に立てば幸いですが、これを自組織に持ち帰り、どのように実践に活かせるかを考える必要があります。それでは、AmazonのPrincipal Product Marketing Managerである Art VDOにバトンを渡したいと思います。ありがとうございました。 この成長の速さを示す例として、2017年のre:Inventでの講演では、当時としては多いと考えられていた70のインスタンスがあると申し上げていました。本日の私の目的は、AWSがクラウド全体でコンピューティングのパラダイムをいかに破壊的に革新してきたかについて、いくつかの事例をご紹介することです。
今年のre:Inventで発表した最新機能と、2024年を通じて展開する機能についてお話ししたいと思います。 まず最初に、AWSのインスタンスに関する命名規則についてご説明します。850のインスタンスの中からどのインスタンスを使用すべきか、多くの方々から質問を受けます。これは最近発表されたインスタンスの一例です。先ほど触れたように、C7gn.xlargeというインスタンスタイプの完全な名称です。これを分解してみましょう。右側の「xlarge」というTシャツサイズは、メモリに対してどれだけのvCPUが得られるかを示しています。各カテゴリには定義されたvCPUとメモリの比率があります。
左端の「C」というシリーズ番号は、これがCompute Optimizedインスタンスであることを示しています。Compute Optimizedインスタンスはメモリ比率が2:1です。xlargeを2XLに増やすと、メモリとvCPUの両方が2倍になります。Cの隣の数字「7」は第7世代プロセッサファミリーを示し、「G」はGraviton、「N」はNetworkingを表しています。 これらの機能について説明してきましたが、長年Amazonのお客様と話をする中で、「これは役立つが、必ずしもこれらのインスタンスの名前を正確に把握できるわけではない。何か支援できることはないか」という声をよく耳にしてきました。
今年発表した新機能の一つが、Amazon EC2 Instance Selection Assistantです。これは、EC2コンソール内の新しい生成AI搭載サービスで、起動すべきインスタンスについて、正確で迅速、かつ経済的な判断を支援します。管理コンソール内でコンテキストに応じたインターフェースを提供し、必要な場所でサポートします。自然言語処理インターフェースを提供し、生成AIと入力された情報に基づくインスタンスファミリーに関する知識を活用して、推奨事項を提示します。これにより、27のインスタンスファミリー、世代、サイズ、機能すべてを分析する必要がなくなり、自分の理解に基づいて構築できるようになりました。 まず生成AIの部分についてご紹介します。EC2コンソールに入り、右側で質問を選択しました。画面では少し読みづらいかもしれませんが、EC2で高性能な機械学習インスタンスを推奨してもらうよう質問しました。システムが回答を生成するのに役立つキーワードをここに入力しています。機械学習用の高性能インスタンスが必要であることと、どのインスタンスタイプまたはインスタンスファミリーを推奨するかという情報を提供しました。エンターを押すと、一連の推奨事項が表示されます。
推奨事項があなたのニーズに十分に合致していない場合は、より具体的な情報に基づいて新たな推奨を得るために、最初からやり直すことができます。より具体的な情報を提供いただくほど、より適切な回答を提供することができます。
別のインターフェースをお好みの場合、同じコンソール内で、より詳細な情報を提供できるこちらのインターフェースもご用意しています。先ほどご紹介した大規模言語モデルと同じプラットフォームをベースにしていますが、こちらではドロップダウンメニューでより具体的な情報を入力できます。同様の推奨事項をポップアップ形式で表示し、このインターフェースの優れている点は、すべてがコンソール内で完結することです。推奨されたインスタンスをその場で起動して試すことができます。
AWSは、ブロックストレージに関して、ストレージを接続したさまざまなEC2インスタンスを含む、多様なオプションを提供しています。ハードドライブを使用するインスタンスも一部提供していますが、大多数のインスタンスはSSDを使用しています。SSDは標準的なハードドライブと比べて1秒あたりの読み取りアクセス数が約1000倍ですが、いくつかの課題も伴います。この会場にいる技術者の皆さんは、おそらくSSDを見たことがあるでしょう - 通常2.5インチから3インチのボックスの形をしています。多くの人が気づいていないのは、実際にはその中で完全なオペレーティングシステムが動作しているということです。最新のSSDシステムの多くは完全なLinux系のOSを実行していますが、パッチ適用が十分でないことも多く、メーカーによって監視方法も異なります。
先ほど触れたAWS Nitroシステムにより、私たちはこの問題を異なる視点で考え、独自のSSDを設計することができました。独自のSSDを設計することで、お客様に影響を与えることなく、標準的な方法でパッチを適用できるようになりました。これにより、ソフトウェアをアップグレードし、テールレイテンシーとレイテンシーアクセスの両方を削減し、システムのパフォーマンスを向上させながら全体的なコストを削減することができます。これまでに2世代のSSDを提供してきましたが、本日は第3世代についてお話しできることを嬉しく思います。
まず1つ目はI7ieインスタンスで、クラウドで最高のローカルストレージ密度を提供します。40%向上した計算性能と120テラバイトのNVMeストレージを提供し、前世代と比べてIOレイテンシーを50%削減し、ストレージIOを65%削減しています。2つ目に発表したのは、Gravitonプロセッサーを基盤とするI8gインスタンスです。これは最高の計算性能を提供し、前世代と比べて60%優れたパフォーマンスと65%優れたリアルタイムストレージパフォーマンスを実現しています。また、低IOサイドのレイテンシーも削減しています。
今年の初めには、U7i インスタンスをリリースしました。 これらの U7i インスタンスは、第4世代 Intel Xeon Scalable プロセッサー(Sapphire Rapids)をベースにしており、特にインメモリデータベースのワークロードに向けてスケールアップできるように設計されています。 これらは、主要なクラウドプロバイダーとしては初めての32テラバイトインスタンスとなります。DDR5メモリを採用し、最大896 vCPUを提供することで、前世代のU-1インスタンスと比べて135%高い計算性能を実現しています。また、U-1インスタンスと比較してEBSの帯域幅が2.5倍になっており、これらのインスタンスはSAPワークロードに最適です。
SAPワークロードと言えば、 昨日、私たちはさらに一歩進んだ発表をしました。
U7inhインスタンスをリリースする予定です。これは単なる文字の羅列ではありません。U7inhインスタンスは、U7iインスタンスの2倍となる最大1920 vCPUを提供します。HPEとのパートナーシップのもとで開発されており、HPE Compute Scale Up Server 3200が初めてクラウドで利用可能になります。これは、オンプレミスのワークロードをクラウドに移行できるようになった新たな事例です。これは16ソケットの完全なSAP認証インスタンスがクラウドで利用可能になり、200ギガバイト/秒のメモリ帯域幅を備えています。
今年の初め、私たちのCEOのMatt Garmanは、 SAPの大規模カンファレンスであるSAP Sapphireに参加し、SAPのCEOとこの分野の進化の重要性について話し合いました。これは、その直接的な対応です。私たちのインスタンスは、その要望に応えるものです。ここには、SAPのChief Product Officerからも、このインスタンスの活用についてのコメントを掲載しています。
これまでの説明に加えて、購入方法についても少しお話ししたいと思います。先ほどEdが話していた複雑さとデータ、情報について触れましたが、まず最初にOn-Demandインスタンスについてです。On-Demandインスタンスは、従量課金制で1秒単位の支払い、前払いの約束事も不要で、ほとんどのお客様がクラウドジャーニーをここからスタートします。 実際、多くのお客様は個人のクレジットカードを使って、これらのインスタンスで始めています。
追加のコミットメントを行う準備が整ったら、Savings Planをご用意しています。Savings Planでは1年から3年の期間のコミットメントが必要で、そのコミットメントと引き換えに、公開されているOn-Demandの料金から大幅な割引を提供します。ただし、24時間365日の利用が必要となるため、すべてのインスタンスに適用できるわけではなく、場合によってはお客様の環境の一部のみがSavings Planの対象となることもあります。
また、私たちはSpotインスタンスという革新的な仕組みを生み出しました。Spotインスタンスでは、AWSの余剰キャパシティをお客様に提供し、その利用を促進するために、On-Demand価格から最大90%の割引を提供しています。「何か制約があるのでは?」とお考えかもしれません。確かに制約はありますが、大きなものではありません。この割引と引き換えに、インスタンスを回収させていただく可能性があることをお伝えしています。ただし、その際は2分前に通知を行い、システムを適切にシャットダウンする時間を設けています。実際には、多くのお客様から、インスタンスの回収はそれほど頻繁には発生しないとの声をいただいています。
Spotインスタンスを使用する際は、実行するワークロードのタイプについて考慮する必要があります。例えば、定期的に実行する必要はないものの、特定の期日までに完了させる必要がある作業などが適しています。月次の給与計算を例に取ると、月末の30日までには完了させる必要がありますが、5日に計算が中断されたとしても大きな問題にはならず、そのような場合でもコスト削減のメリットを得ることができます。
これらに加えて、最後のカテゴリとして購入オプションがあります。昨年のre:Inventで、私はCapacity Blocksとその進展について説明しました。これによりシステム内のキャパシティを予約することが可能になります。多くのお客様から、さらなる機能拡張の要望をいただきました。そこで私たちは何を行ったのでしょうか?お客様からの要望に応えて、Instant Capacity Blocks、より長期間のCapacity Blocks、予約を延長できるCapacity Block Extensionsなど、新機能を追加しました。
Instance Capacity Blocksを使用すると、GPUや機械学習のワークロードを30分以内に即座に開始することができます。長期間のCapacity Blocksでは、最長6ヶ月間のキャパシティ予約が可能です。また、トレーニングジョブの完了に追加の時間が必要な場合は、Capacity Block Extensionを利用して予約期間を延長することができます。このように、AIの能力を向上させるための機能も継続的に提供しています。使い方はとてもシンプルです。日付の範囲、起動したいインスタンスの数、利用期間を指定し、場所とカレンダー上の時間を選択すると、私たちがキャパシティを提供します。これによってコスト削減にも貢献できると考えています。
HPCからAIまで:AWSの高性能コンピューティングソリューション
先ほどの講演で大規模なSAPワークロードについて触れましたが、これは現在、High Performance Computing(HPC)の分野に該当します。現在、HPCワークロードの20%がクラウドで実行されていますが、2028年までにその割合は30%まで加速すると予測しています。現在372億ドル規模のHPC市場はクラウドでさらに拡大していくことから、HPCのお客様向けにより多くのインスタンスとファミリーをサポートしていく必要があります。
Amazonには専用のHPCポートフォリオが用意されており、ぜひご覧いただきたいと思います。そして数週間前のSupercomputingカンファレンスでは、7年連続でBest HPC Cloud Platformを受賞しました。この受賞実績を示すスライドをお見せしましたが、ここで特に注目していただきたいのは、今年8月にローンチした新しいテクノロジーの1つ、AWS Parallel Computing Serviceです。
AWS Parallel Computing Serviceを使用することで、お客様はHPC領域でのインスタンスをより簡単に起動できるようになります。大容量インスタンスの移行をより迅速に行えるようサポートし、クラスターのセットアップを簡素化し、ジョブ管理の作業量を削減し、移行に必要な労力を軽減します。これは、そうしたワークロードを移行するための素晴らしい機能であり、方法の1つです。
ここまでプレゼンテーションを進めてきましたが、AIに関する新機能についてはまだあまり触れていませんでした。2012年には、クラウドでGPU作業を行うことができ、大規模なインスタンスと言えば2つのGPUを要求し、当時言語モデルと呼んでいたものに6,000万のパラメーターを使用する程度でした。しかし2023年には、お客様は同じようなタスクに10,000個のGPUと5,000億のパラメーターを使用していると伺っています。2024年には、その数字はすでに10倍に拡大し、お客様は10万個以上のGPUを要求し、パラメーター数は1兆に迫ろうとしています。
Amazonでは長年Machine Learningを実装してきており、インスタンスに関して完全なポートフォリオを提供しています。実際、毎年10万以上のお客様がAmazonでMachine Learningワークロードの構築、トレーニング、デプロイを行っています。ここでは最新のインスタンスの一部をご紹介していますが、先ほどWillemが説明したNVIDIA GPUから、Intel Habana、Qualcommインスタンス、そして私たちが開発したInferentiaやTrainiumインスタンスまで、幅広く取り揃えています。
今週、私たちは最新のAIチップであるTrainium2をローンチしました。Trainium2への投資により、お客様に優れたコストパフォーマンスを提供することができています。これらの目的特化型チップにより、ディープラーニングワークロード向けにアーキテクチャを最適化し、チップのコストを削減しながら効果的なパフォーマンスを実現しています。私たちのTrainingチップは、確率的丸め込みによるスパース性など、独自の革新的技術を活用しており、さらにFloating Point TeraFLOPSやその他のパフォーマンス強化機能を提供して、Trainiumの使用体験を向上させています。
Trainium2インスタンスは、16個のTrainium2チップを搭載しています。各Trainium2インスタンスには16個のチップが搭載され、独自のNeuron Linkを使用して相互接続されています。Neuron Linkは専用の高帯域・低レイテンシーの相互接続技術で、20.8ペタフロップスの計算能力を提供します。これにより、Trainium2は数千億のパラメータを持つモデルのトレーニングと推論に最適となっています。しかし、私たちはお客様にとってさらに使いやすいものにしたいと考えました。
これらのメリットを活用するため、私たちはTrainium2 Ultraサーバーを導入しました。Ultraサーバーは4つのTrainium2搭載インスタンスを接続することで、信頼性を向上させ、セキュリティを強化しています。先ほど申し上げたように、インスタンスは高帯域・低レイテンシーのNeuron Linkで接続されています。
Trainium2 UltraServerは完全に新しいEC2製品です。私たちは1つのインスタンスで16個のTrainium2チップを接続するネットワークリンクを、インスタンス間で64個のTrainium2チップを接続できるように拡張しました。Trainium2 UltraServerは、64個のTrainium2チップのパワーを1台のサーバーに集約し、最大83.2ペタフロップスを実現して作業を加速できると考えてください。これにより、お客様は数十億から場合によっては数兆のパラメータを処理することができます。
しかし、AIの分野ではそれだけではありません。先ほど述べたように、必要なパラメータ数が増加するにつれて、使用量も増加します。ここでEC2 UltraClusterの出番です。UltraServerがスケールアップを可能にする一方で、UltraClusterは数十万個のTrainium2チップへのスケールアウトを可能にします。想像してみてください - 数十万台のUltraServerが、それぞれ12.8テラバイト/秒のEFAネットワーキングで接続され、数十ペタバイトを10マイクロ秒未満で転送できるノンブロッキングネットワークで結ばれているのです。AIの計算能力の急速な成長には、さらに1桁上の性能が必要になることを覚えておいてください。
この製品ファミリーの最後のご紹介として、今週発表したばかりのTrainium3インスタンスについてお話しします。Trainium2のローンチを発表したばかりですが、Trainium3も開発中です。Trainium3インスタンスはTrainium2の2倍の計算能力を持ち、同じパフォーマンスで消費電力を40%削減し、3ナノメートルのプロセスノードを採用します。これらすべてを踏まえて、会場の皆様に問いかけたいと思います - これらを使って何を構築できるでしょうか?私たちは、EC2で提供する新しいインスタンスを使って、お客様が何を実現されるのかを楽しみにしています。
EC2の新機能まとめと今後の展望
もう1点お伝えしたいことがあります。本日のプレゼンテーションでは多くのローンチについてご紹介しましたので、皆様のために簡単なローンチサマリーのスライドをご用意しました。これらは今年EC2で実施したローンチの一部で、皆様にとって非常に興味深いものばかりです。Willemの言葉に付け加えて、もしまだGravitonプロセッサーを試されていない方は、ぜひ試していただきたいと思います。4時間以内にGravitonでアプリケーションを稼働させることができますし、Gravitonのサステナビリティへの取り組みについてもより詳しく知ることができます。
会場にいらっしゃる皆様は、今日から金曜日までCaesar's Forumで開催されているサステナビリティExpoにご参加いただけます。また、Instance FinderやEC2コンソールについてより詳しく知りたい方は、本日午後と明日に私のセッションがありますので、これらのライブデモをご覧いただけます。ご参加いただき、ありがとうございました。特にWilliamとEdには、本日ご登壇いただき感謝申し上げます。最後に、アンケートへのご協力をお願いいたします。ありがとうございました。
※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。












































































Discussion