📖

re:Invent 2024: AWSとAstera LabsがEDAワークロードのクラウド移行を解説

2024/01/01に公開

はじめに

海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!

📖 AWS re:Invent 2024 - Silicon powers the world: Learn how to scale your EDA workloads (CMP325)

この動画では、半導体設計におけるEDAワークロードのクラウド移行について、AWSのPrincipal Product ManagerのSinem GulbayとAstera LabsのCEO Jitendra Mohanが解説しています。設計の複雑化、Time to Market、グローバルチーム対応、最新技術への適応、コスト最適化といった業界の課題に対し、AWSのEC2インスタンスやGraviton4などの最新コンピューティングソリューションがどう解決策を提供するかを説明。特にAstera Labsの事例では、AWSクラウドの活用により、エンジニアが実行できるシミュレーション数を10倍に増やし、12回以上のテープアウトを5年半で実現。SynopsysのPrimeTimeなどのEDAツールをクラウド上で効率的に運用し、半導体設計の品質向上とTime to Market短縮を実現した具体的な成果が示されています。
https://www.youtube.com/watch?v=5sdEjwtKU1E
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。

re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!

本編

EDAワークロードのクラウド移行:課題と機会

Thumbnail 0

みなさん、こんにちは。私の声を聞くにはヘッドフォンが必要です。半導体業界でお仕事をされている方は手を挙げていただけますか。はい、ありがとうございます。皆様、正しいセッションにお越しいただいています。現在、複数のセッションが同時進行していますので確認させていただきました。EDA Cloudの話題に入る前に、会場の皆様についてもう少し理解を深めたいと思います。現在、自社のプレミス環境でEDAワークロードを実行している方は手を挙げてください。リソースの制限によってプロジェクトが遅延した経験がある方は?最新技術が必要な理由を経営陣に説明しなければならなかった経験のある方は?今後12ヶ月以内にCloudへの移行を計画している方は手を挙げてください。そして現在、Cloudで自社のEDAワークロードを実行できている方は手を挙げてください。ご協力ありがとうございました。本日は非常に多様で経験豊富な方々にお集まりいただいているようですね。

私はSinem Gulbayです。Electronic Design Automation(EDA)ワークロード向けに最適化されたコンピューティングソリューションを担当するEC2のPrincipal Product Managerを務めています。本日は、Cloud活用による半導体設計の先駆者であるAstera LabsのCEO兼共同創業者のJitendra Mohanさんをお迎えできることを大変嬉しく思います。

Thumbnail 110

本日のセッションでは、EDA業界が直面している課題と機会について詳しく見ていきます。主要な半導体企業がなぜEDAワークロードをCloudで実行するようになってきているのか、そしてEDAワークロードをAWSに移行することで皆様がどのようなメリットを得られるのかについてお話しします。さらに、Astera LabsがAWS上でどのようにシリコンイノベーションを実現してきたのか、直接お話を伺います。

半導体業界が直面する課題とAWSの解決策

Thumbnail 150

それでは、EDA業界で進展している課題と、それらを大きな機会に変える方法についてお話ししていきましょう。まず、設計の複雑化についてです。高度で強力なチップ設計により、チップ設計の複雑さが増しています。これは現在、周知の事実です。適切なコンピューティングとストレージソリューションを備えた先進的なインフラは、インフラの観点から設計ニーズのボトルネックを解消するのに役立ちます。業界が直面している2つ目の課題は、競争の激しい環境での市場投入時間です。最先端のEDAインフラは、シリコン設計の検証シミュレーションを効率化することで競争優位性となり、市場投入時間を短縮する強力なツールとなり得ます。

3番目は、グローバルチームと強化されたセキュリティです。グローバル人材は、多様な専門知識と24時間体制の生産性を活用できる大きな機会です。ただし、それにはシームレスな協業を安全な方法で提供できるEDAインフラが必要です。4番目は、最新技術への適応です。半導体業界における急速なイノベーションは、皆様自身のシリコンイノベーションを加速する直接的な機会となり得ます。最新のハードウェアとソフトウェア技術を採用することで、EDAインフラのパフォーマンスにボトルネックを生じることなく、イノベーションを加速することができます。

Thumbnail 300

最後のパートはコスト最適化についてです。これは、どのお客様や業界でも共通するテーマだと思います。具体的には、ビジネスニーズに合わせて戦略的にインフラを管理することで、非常に強力で革新的なソリューションを提供しながら、競争力を維持し、支出を最適化することができます。次に、主要な半導体企業がAWSの優位性とメリットをどのように活用して、これらの課題を機会に変えているかについてお話ししたいと思います。競争の激しい業界におけるスケーラビリティとElasticityの力についてです。

まず、主要な推進要因について説明しましょう。Time to Marketのプレッシャーと複雑性が増す中、スケーラビリティとElasticityは非常に重要です。自社管理のデータセンターで容量を増やす必要がある場合、新しいデータセンタースペース、新しいハードウェア、新しいラックを調達し、それらすべてを管理する必要があります。残念ながら、これらはすぐには実現できません。さらに、新しい容量への投資は非常に資本集約的になる可能性があるため、必要以上の投資は避けたいものです。プロジェクトが開始され規模が拡大すると需要は増加し、プロジェクトが終了すると需要は減少します。しかし、静的なオンプレミスのデータセンターでは、このような変動する需要に対応する俊敏性を提供できません。

Thumbnail 400

Thumbnail 410

具体的に説明させていただきます。これは自社管理のデータセンターにおける典型的な容量曲線です。プロジェクトを開始し、しばらくしてから容量が必要だと気付いて、追加の容量を調達します。しかし、需要曲線は容量曲線と同じような曲線を描きません。需要は実際にプロジェクトの開始と終了に応じて変動します。これは、使用されていない容量が残るか、新しいプロジェクトを開始する際に遅延が発生することを意味します。静的な容量では、常に多すぎるか少なすぎるかのどちらかになってしまうためです。そのため、主要な半導体企業はAWSに注目しています。もう推測する必要はありません。必要に応じてスケールアップやダウンを行い、容量を需要に合わせることができます。

Thumbnail 420

もう一つのスケーラビリティに関連する要因を見てみましょう。それはElasticityです。ここで示しているのは、前年のGraviton4開発からの日次インスタンス使用量です。Q3-Q4の期間中、日次使用量は5,000インスタンスまでピークを迎えました。その後、Graviton4 IODダイのテープアウト時には、需要は7,000インスタンスまで上昇しました。さらに、コンピュートダイのテープアウト時には実際に10,000インスタンスまで上昇し、これらはすべて非常に大きなインスタンス - 数十万コアに相当します。10万コアまでスケールアップし、必要がなくなった時点でスケールダウンできる力を想像してみてください。これは、AWSのAmazonチームの一員であり、Graviton4シリコンの設計者であるAnoraにとって大きな助けとなりました。すべてのスケーラビリティの問題から解放され、ピーク使用時の容量投資に伴う追加のCAPEXなしで、必要な時にスケールを確保してデザインを加速することができました。

AWSが提供するEDA向けの多様な選択肢

Thumbnail 520

半導体企業がEDAワークロードの実行にAWSを選択する2番目の大きな理由は、グローバルなプレゼンスと強化されたセキュリティです。多様な人材プールを活用できるグローバルなプレゼンスがもたらす機会についてお話ししました。しかし、それにはインフラが必要です。AWSは堅牢で高度にセキュアなグローバルインフラを提供し、チームが同じデータ、同じツールにアクセスしてリアルタイムで作業できるよう、グローバルに安全な方法で接続することを支援します。人材にアクセスするために新しい地域に展開する必要がある場合、その地域により近いところにコンピュートやストレージを配置できることは非常に強力です。

Thumbnail 580

では、お客様が実際にどのように価値を見出しているのかを見ていきましょう。半導体製造のグローバルリーダーであるTSMCは、N2およびN3プロセスノード技術においてAWS上でのSiemens EDAツールを認証しました。これは非常に重要な意味を持ちます。この動きにより、世界中の設計者たちは、TSMCの先進的な製造ツールとSiemens EDAの強力なツールを活用して、自身の設計を加速することが可能になりました。

Thumbnail 630

TSMCの先進的な製造ツール、Siemens EDAの強力なツール、そしてそれらを堅牢で安全なグローバルインフラストラクチャ上で実行することで、設計者たちは柔軟かつ効率的な方法で設計を加速できます。次は別のお客様であるMarvellの事例を見てみましょう。データインフラストラクチャ技術分野をリードする半導体企業Marvellは、クラウドファーストのシリコン設計を推進するためにAWSと協力しています。この協力関係により、Marvellは世界中どこでも必要な場所でグローバルなスケーラビリティを確保し、AWSの最高水準のセキュリティを活用し、運用効率を向上させる可能性を手に入れました。これは、競争力を維持する上で重要な業界において非常に重要です。Marvellの言葉を借りれば、急速に変化するニーズを持つこの業界で、様々な顧客の要求に応えるために重要なチップ設計の加速を実現できているとのことです。

Thumbnail 680

最後に、しかし決して軽視できない利点として、AWS上でEDAを実行する上での重要な要因である「選択肢」について話しましょう。AWSは最新のハードウェアとソフトウェアのイノベーション、最新テクノロジーを提供しており、お客様は自身のイノベーションを加速するためにそれらを活用できます。選択肢が重要な理由は2つあります。1つ目は、最新テクノロジーへのアクセスにより、現在おそらく最大の支出項目であるEDAライセンスコストを最適化できることです。2つ目は、1つのソリューションですべてのニーズに対応しようとするのではなく、ワークロードのニーズに合った適切なコンピューティングソリューションを使用できることです。

Thumbnail 740

具体的に説明しましょう。最新テクノロジーへのアクセスが1四半期遅れた場合の影響を例に見てみましょう。ここでは、各世代で性能が向上し、コンピューティングニーズが20%削減されると仮定します。つまり、今年Gen Nのチップを10,000個投資する予定だったところ、最新のGen N+1テクノロジーを使用すれば、実際には8,000個で済み、20%の削減が可能になるということです。Gen NからGen N+1の各世代間で、チップあたり50ワットの電力削減があると仮定します。CAPEXはチップ1個あたり10,000ドルで、Gen NとGen N+1で同じとします。オンプレミスでは、チップの寿命を6年と仮定します。

では、たった1四半期の遅れがどれだけのコストをもたらすか見てみましょう。まず、最新チップを2,000個調達する代わりに、2,500個必要になります - 最新世代のパフォーマンス向上を活用できないため、500個多く必要になるのです。これは、データセンターで追加で125キロワットの容量が必要になることを意味します。また、CAPEXで500万ドルの追加支出が必要になり、寿命期間中に7ギガワット時の追加電力使用が発生することになります。考えてみてください。これはたった1四半期の遅れによる影響です。最新テクノロジーをリリースされたらすぐにアクセスでき、タイミングを気にする必要がない場合、その影響は非常に大きいのです。

Thumbnail 860

もう1つお話ししたいのは、選択肢の重要性についてです。ここでお見せしているのは、典型的なEDAワークフローで、私たちが呼ぶところのフロントエンドとバックエンドの異なるワークロードです。ここで分かるように、EDAには「一つのサイズですべてに対応する」というアプローチは通用しません。Design Verificationのようなフロントエンドの設計ワークロードは、Physical Verificationのようなワークロードとは、計算能力やメモリの要件が大きく異なります。1つのソリューションですべてに対応しようとすると、リソースを効率的に活用できないか、ワークロードに必要な十分なパフォーマンスを提供できないことになります。

さらに、プロジェクトやツールが進化するにつれて、最適なCPUとメモリの比率も時間とともに変化する可能性がありますが、ハードウェアの選択は開始時に行う必要があります。誰も耐用年数が来る前にハードウェアを処分したくはないので、結果的に一部のワークロードを古いハードウェアや、そのワークロードに最適なCPUとメモリの設定を持たないハードウェアで実行することになります。これは、本来ならEDAライセンスの使用を最大限に最適化したいところ、そのリターンを最大化できていないことを意味します。

Thumbnail 960

選択肢と言えば、 ここで1つの顧客事例をご紹介したいと思います。組み込みアプリケーション向けのセキュアな接続ソリューションをリードする半導体企業であるNXP Semiconductorsは、次世代の半導体イノベーションを推進するためにAWSを選択しました。彼らの言葉を借りれば、AWSのクラウドサービスポートフォリオの活用は、半導体イノベーションの開発および生産サイクルの加速に不可欠でした。AWSが提供する幅広いコンピュート選択肢を活用することで、NXPはワークロード要件に基づいてコンピュートニーズを最適化し、パフォーマンスだけでなく、価格性能比も最適化することができました。

Amazon Annapurna Labsのイノベーション:クラウド活用の成功例

Thumbnail 1010

Thumbnail 1040

EDAワークロードで利用可能な幅広い選択肢について話しましょう。EDA向けに最適化された私たちのインスタンスとコンピュートオファリングを見ると、Intel、AMD、AWSなど、さまざまなプロセッサーオプションにわたる幅広い選択肢があることがわかります。最新のEC2オファリングについて、少しお時間をいただいてご説明させていただきます。 IntelインスタンスはAWSでのみ利用可能なカスタムIntel Sapphire Rapids CPUを搭載しています。カスタムSapphire Rapidsの設計にIntelと協力して投資することで、前世代のIce Lake搭載のGen6インスタンスと比較して最大20%高いパフォーマンスを実現することができました。これらのインスタンスは、最大3.9ギガヘルツの持続的なオールコアターボ周波数を持つ高周波バージョンとしても利用可能です。

これらのR7iとR7i2という2つのインスタンスは、vCPUとメモリの比率が1対8で、つまりvCPU1つあたり8ギガバイトのメモリを持っており、優れたパフォーマンスとメモリを必要とするワークロードに理想的です。AMD Genoa CPUを搭載したAMDベースのインスタンスは、前世代のMilan搭載のGen6インスタンスと比較して最大50%高いパフォーマンスを提供します。これらのインスタンスも同様にvCPUとメモリの比率が1対8で、1.5テラバイト以上の非常に高いパフォーマンスとメモリを必要とするワークロードに最適です。

AWS Gravitonインスタンスは、Graviton4 CPUを搭載しています。最新世代のGraviton4 CPUは、前世代のGraviton3ベースのインスタンスと比較して30%高いパフォーマンスを提供します。また、Amazon EC2インスタンス全体の中で、ギガバイトあたりの最低コストを実現しています。さらに、このファミリーにはXバリアントがあり、各vCPUに対して16ギガバイトのメモリが提供され、最大3テラバイトまでスケールアップが可能です。先ほど様々なワークロードには異なるニーズがあると説明しましたが、中には3テラバイトのメモリや高いコアとメモリの比率を必要とするワークロードもあります。そのため、お客様がワークロードのニーズに応じて最適な計算リソースを選択できるよう、十分な選択肢を提供することが重要だと考えています。

Thumbnail 1190

Gravitonについてもう少しお話ししましょう。 Gravitonベースのインスタンスにおけるツールの対応状況を見ると、急速に変化している傾向が分かります。おそらく半年前のスライドは今のものとはかなり異なっていましたし、これから半年後のスライドも今のものとは大きく異なるでしょう。

2025年末までには、大半のツールがGravitonベースのインスタンスをサポートするようになると予想しています。これは、異なるパフォーマンス、価格性能比、またはコストプロファイルなど、様々なワークロードのニーズに応じて最適化する選択肢を提供できるという点で重要です。このような選択肢があることで、お客様は自身のニーズに合わせて本当の意味での最適化が可能になります。

Thumbnail 1240

半導体業界向けEDAツールのリーダーであるSynopsysは、最近私たちと協力して、共通のお客様が利用可能な最高のパフォーマンスを実現できるよう取り組んでいます。この協力を通じて、これらのツールがさらに優れた成果を達成できるよう、最高のパフォーマンスを提供する方法を検討しました。その一環として、AWSチームはArm搭載のAWS Graviton4インスタンス上でSynopsys PrimeTimeのテストを実施しました。ここにいらっしゃる方々の多くがPrimeTimeをご利用と思いますので、Graviton4上でのPrimeTimeのテストとベンチマークで観察された結果をご紹介しましょう。

Thumbnail 1300

Graviton4ベースのR8g上でのSynopsys PrimeTimeを使用した初期のエンジニアリングビルドは、半分のvCPU数でR7iと同等のパフォーマンスを発揮しています。半分のvCPU数で同等のパフォーマンスが得られるということは、パフォーマンスの最適化とコストの最適化の両方を実現できているということです。より多くのツールが利用可能になることで、コストを最適化しながらイノベーションを加速することができます。私たちが提供する幅広い選択肢により、Annapurnaのようなチームは、最速のペースでイノベーションを推進しながら、自社の支出を最適化することができています。

Thumbnail 1350

Thumbnail 1370

Amazonの独自シリコンへの取り組みは、2014年にAnnapurna Labsを買収した10年前から始まりました。現在、Annapurna LabsはNitroからGraviton、そしてInferentia やTrainiumなどの機械学習チップまで、AWSのカスタムプロセッサをすべて設計しています。この10年間で、チップの複雑さは指数関数的に増加しましたが、それにもかかわらず開発スピードは加速し続けています。10年間で、Nitroは6世代、Gravitonは4世代、機械学習チップは3世代と進化を遂げており、これは驚異的なイノベーションのペースを示しています。

ここで一旦立ち止まって、Annapurna Labsがこのようなイノベーションのペースを実現できた要因について考えてみましょう。それは、Annapurna自身のデジタルトランスフォーメーションの journey に遡ります。AmazonがAnnapurna Labsを買収した当時、彼らはすべてのワークロードをオンプレミスで実行していました。時間の経過とともに、自社管理のデータセンターは維持しながらも、一部のアプリケーションをAWS上で実行するハイブリッドアプローチを採用するようになりました。現在、AnnapurnaチームがAWS以外で実行しているのはエミュレータのみです。これにより、彼らは規模の制約から解放され、必要に応じてAWSの堅牢でグローバルかつセキュアなインフラストラクチャを活用してスケールアップすることが可能になり、しかも多額の設備投資を必要としませんでした。クラウドのスケーラビリティと柔軟性により、さまざまなニーズに応じた選択肢が得られ、高速なイノベーションが可能になったのです。

Astera Labs:クラウドファーストのシリコン設計への挑戦

では、Astera Labsのシリコンイノベーションのjourneyについて、Jitendraにバトンを渡したいと思います。Asteraの皆さん、拍手をお願いします。ありがとうございます。私のプレゼンテーションを3つの言葉で要約するなら、「彼女の言った通り」となります。これまでのすべてのサービスのエンドユーザーとしての視点をお話ししたいと思います。私はJitendra Mohanで、Astera Labsの共同創設者の一人です。

Thumbnail 1520

私のバックグラウンドは実はITのトレーニングを全く受けていないアナログ回路設計です。会社が小規模だった頃は、ITエンジニアを兼任していましたが、今日ここにいる正式なITチームは、私の過ちの尻拭いをまだしている状況です。幸い私はCEOなので、時々は見逃してもらえています。

Thumbnail 1540

ITインフラの話に入る前に、Astera Labsについて少しお話しさせていただきます。私たちは設立から約7年の会社で、世界中に400人以上のスタッフがいます。現在、4つのProduct Lineを市場に投入し、収益を上げています。前四半期のベースでは、年間売上高換算で4億ドル以上に達しています。1,000万個以上のデバイスを出荷しており、特に重要なのは、主要なHyperscalerやプラットフォームプロバイダーすべてに製品を提供していることです。私たちはAWSのサービスを利用していますが、同時にHyperscale業界にも製品を販売しています。

Thumbnail 1590

このスライドは、私たちの過去7年間の歩みを示しています。2017年10月にガレージで設立されて以来、いくつかの賞を受賞し、数回の資金調達を経て、今年3月に上場を果たしました。2019年の重要な賞がいくつか抜けていますが、それについては後ほど触れたいと思います。デザインのバックグラウンドを持つ私個人として特に満足しているのは、この5年半から6年の間に行ってきたテープアウトとチップのリリース数です。先ほど申し上げたように、イノベーションのペースは本当に加速しており、この5年半から6年の間に12回以上のテープアウトを実施してきました。そのすべてを100%AWSで行っています。

Thumbnail 1640

このスライドは私の心に非常に近いものです。私たちは顧客やパートナーに対して、成功の3つの柱を提示しています。1つ目は実行における卓越性です。文字通りPowerPoint、つまりアイデアの段階から、複数の製品ラインで1年以内に顧客の手元にサンプルを届けることができました。これは、主要なツールベンダーであるSynopsys、すべてのチップを製造するTSMC、そして私たちのインフラをすべて運用しているAWSとの緊密なパートナーシップを通じて実現できました。この後のスライドでデータを使って説明しますが、このパートナーシップにより、私たちが知られているような優れた実行力を実現できる柔軟性を得ることができました。

Thumbnail 1700

最初に戻ってみましょう。2018年4月、会社の従業員がわずか3人で、私がIT担当者だった頃、私たちは選択を迫られました。当時最も多く助言されたのは、オンプレミスを選択することでした - ラックを購入し、そこにサーバーを数台設置して始めるというものです。または、当時多くの企業が行っていたように、オンプレミスとクラウドを少しずつ組み合わせたハイブリッド方式を選ぶという選択肢もありました。そして、もう1つの選択肢は100%クラウドでした。

Thumbnail 1740

私たちの意思決定は、おそらく最も洗練されたものではありませんでしたが、このように100%クラウドを選択することになりました。私たちはITに詳しい人間が誰もおらず、すべてのインフラを管理することは大変だろうと考えました。ハイブリッドの場合、オンプレミスとクラウドの両方のインフラを管理しなければならないため、苦労は2倍になります。そのため、この選択肢は簡単に除外されました。また、独自のオンプレミスインフラを構築するためのリソースや知識も持ち合わせていませんでした。行動重視の考えから、クラウドに進むことを決めました。振り返ってみると、多くのアドバイザーは、それがどれほど困難で、ほとんど無謀とも言えるものだったかを教えてくれませんでした。しかし、典型的なスタートアップらしく、これが私たちの進む道だと決め、先ほどのスライドでお見せしたような結果を出すために、直面する障害をすべて乗り越えてきました。

Thumbnail 1780

右側のこのチャートは読みづらいかもしれません。特にIT研修を受けていない人にとっては、理解するのはさらに難しいでしょう。しかし実際には、私たちはAWS Cloud ServicesをベースにしたIT基盤をすべて構築することができ、それはすべてAWS ProServeチームによって、さまざまなAWSサービスを使用して設計されました。固定のワークロードはReserved Instancesで実行していますが、これは驚くことではありません。

Thumbnail 1860

私たちは、オンデマンドインスタンスとSpotインスタンスで計算処理を行っています。セッション前に、EDAワークロードにとって非常に重要なストレージについて話していました。当時はFSxが利用できなかったため、EBSボリュームを使用して独自のNFSサーバーを立ち上げることにしましたが、これがクラッシュしていました。12人の会社で10人がエンジニアという環境で、全員が突然立ち上がったら、それはファイルサーバーがクラッシュした合図でした。幸いにもFSxが導入され、AWSが全ての問題のデバッグを支援してくれました。その後、すべてをFSxに移行し、現在は主にIntel、一部AMDとGravitonプロセッサーを使用する2つのインスタンスがFSx上で稼働しています。最近では、AWS Backupも使い始めました。

このチャートは、おそらく私の今回のトークで最も重要な部分です。下に見えているのは私たちの支出です - 数値は関係者への配慮で削除してあります。この曲線に指数関数をフィッティングしようとすると、かなり近い形になるでしょう。これは私たちのFinanceチームに少し心臓発作を起こさせるようなものです。各チームは、この状況を経営陣の他のメンバーに説明するのが非常に難しいと感じるでしょう。この話に深入りする前に、ちょっと私なりのアンケートをとってみましょう:実際にチップの設計をされている方、あるいはこれらのサービスを使って設計をされている方は何人いらっしゃいますか? とても良いですね。この話は皆さんにより響くかもしれません。

このチャートをITの視点で見ると、私も何が起きているのか、そしてこれで会社が破産してしまわないかと心配になります。しかし、設計者やCEOの立場で見ると、物事が違った視点で見えてきます。お客様にソリューションを提供しようとする際、最大のコストはITではありません。Samも言及したように、最大のコストは実は時間です。時間を失えば、どれだけのお金やリソースを投入しても取り戻すことはできません。2番目に大きなコストは私たちのエンジニアで、3番目は製造、特に私たちがTSMCで使用しているような先端プロセスでのマスクです。ミスをすれば何百万ドルものコストがかかってしまいます。

ここでクラウドの力が発揮されます。なぜなら、クラウドを使って、そして私たちがAWSで実現したことは、テープアウトまでの時間を本当に短縮し、エンジニアの生産性を向上させ、テープアウトするチップの品質を確保することができたからです。エンジニアが実行できるシミュレーションの数は簡単に10倍に増やすことができました。以前、Texas Instrumentsにいた時は、コンピュートファームにアクセスできましたが、それでも十分とは感じていませんでした。AWSを初めて使用した時、この無限のコンピュートリソースという考えは非常に魅力的でした。

現在、私たちのエンジニアは、以前の10倍のシミュレーションを実行しています。これは、チップの設計にかかる時間を短縮しただけでなく、品質の向上にも直接貢献しています。これが私たちがフロントエンド設計と呼ぶものです - 設計、シミュレーション、バグの発見、修正を行う段階です。その後、実装フェーズに移り、この設計を最終的に製造に送る多角形(ポリゴン)に変換します。固定のインフラを使用する場合、実装ツールに使用するか、シミュレーションを継続して実行するかの選択を迫られます。AWSでは、そのような選択を迫られることはありませんでした。

私たちのエンジニアは、設計を実装フェーズにリリースした後も、シミュレーションを継続して実行しています。シミュレーションを続けていくと、どこかの時点で問題が見つかるものです。実装チームは、プライマリパスのインフラストラクチャ上で作業を続けながら、並行して別のパスを開始します。バグ修正や新機能などの変更を取り込み、メインの実行と並行して別の実行を開始するのです。この並行実行が追いつけば、それがプライマリになり、元のメインの実行は破棄されます。このように多くの作業を並行して行える能力は、エンジニアの生産性向上とTape-outの高速化という点で、私たちに大きなプラスの影響をもたらしました。生産性を高めるため、私たちはTape-outを早め、顧客により早くSiliconを届けることに注力しました。これが、現在の成功につながっているのです。

Astera LabsのAWS活用戦略と今後のEDAクラウド展望

Thumbnail 2120

詳しく説明させていただきます。これは、が示していたAWSインフラストラクチャの使用方法と似ています。私が特に気に入っているのは右上のグラフで、約2年間にわたって異なるインスタンスタイプをどのように使用してきたかを示しています。

この期間よりもさらに前まで遡ると、最初はC5インスタンスから始まり、M5インスタンス、そしてメモリ要件からR5が私たちのワーカーとなりました。R6が登場するとすぐにR6にワークロードを移行し、R7が登場するとR7に移行しました。今日はR8についても聞きましたので、次に発表する機会があれば、このスライドにR8も載っているでしょう。さらに、薄い色で示されているXファミリー、特にX2sと、その前のZ1Dインスタンスは、プロセスの最終段階で重要となる長時間実行のシミュレーション、いわゆるGate Levelシミュレーション用に使用しています。

私たちのエンジニアは、必要なシミュレーション1つにつき3つのシミュレーションを開始します。1つは最高速度で実行され、データを保存しません - パスすれば問題なく、他の2つのジョブは終了できます。問題が見つかった場合、2番目のジョブがデバッグ用のより詳細な情報を提供し、3番目のジョブはすべてのデータ、波形、すべての情報を保存します。これは、クラウドがもたらすスケールと柔軟性を最大限に活用するための私たちのワークフロー構造の一例です。

左上の緑色で示されているストレージは、私たちが自前で立ち上げたNFSファイルサーバーで、160テラバイトが上限でした。2年間で160テラバイトから600テラバイト以上まで、すべてSSDで拡大しました。グラフは直線的に見えますが、ストレージ管理は課題となることがあります。週末のハイキング中に、ストレージ使用率が90%に達したという連絡が入ることもあります。数回のキー操作で即座にその圧迫状態を解消できますが、時間をかけてエンジニアにクリーンアップを依頼することになります。もっとも、エンジニアは通常それを渋るものですが。

コストを管理するため、私たちはSpotインスタンスとOn-demandインスタンスを賢明に使い分けています。右下の2つのグラフは、インスタンスの使用時間を示しており、Spotインスタンスが大半を占めています。左側のグラフはコストを示していますが、Spotインスタンスの使用率が高いにもかかわらず、On-demandインスタンスが依然としてコストの大部分を占めています。次のスライドでは、Spotインスタンスをより効果的に活用するために、どのようにワークロードを修正したかについて説明します。

Thumbnail 2330

これだけの計算リソースは素晴らしいのですが、十分なライセンスがなければ意味がありません。ここで Electronic Design Automation が重要になってきます。2018年、私たちはSynopsysと密接に協力して、クラウドのニーズに対応しました。当時、私たちはわずか12人のエンジニアで製品もない状態でしたが、時間単位の使用モデルを認めていただきました。当時は私たちだけの特別な契約でしたが、現在は一般に公開されています。現在は、彼らのクラウドポータルでPay-per-useモデルを使用しています。ここに示されているのは私たちの日次使用量で、Sinemが示したグラフと非常によく似ており、10倍のスパイクが発生する期間が見られます。このような10倍の変動は、プロジェクトサイクルの中で発生し、エンジニアが望むタイプのシミュレーションを、最高品質を確保するために必要な数だけ実行できるようにしています。これは、クラウドのスケーラビリティと非常にうまく調和しています。

Thumbnail 2410

Spotマシンの使用についてお話しします。私たちは早い段階で、無限のコンピュートと無限のライセンスを使用すれば、非常に急速に破産してしまうことを理解していました。そこで、Spotインスタンスを使用するワークフローの実現に焦点を当てることにしました。SynopsysのVCSを使用してSpotインスタンス上でシミュレーションを開始し、そのSave-Restore機能を活用するワークフローを作成しました。AWSサービスからSpotマシンが回収される可能性があるという通知を受けると、シミュレータの状態を保存します。Spotマシンが停止するとジョブはクラッシュしますが、ジョブスケジューラが自動的に保存されたポイントから再起動します。Save-Restoreを自動的に実行するために追加の詳細な作業が必要でしたが、結果として、ワークロードの大部分をSpotマシンで実行し続けることができ、これは非常に有益でした。

Thumbnail 2480

バックエンドに目を向けると、私たちはすべてのバックエンド処理をAWS Cloud上で実行しています。バックエンドの特性とジョブの要件は大きく異なります。通常、より大きなマシンと大きなフットプリントが必要ですが、これらの要件はAWS Cloudで利用可能なさまざまなインスタンスによって完全に満たされています。合成、配置配線、タイミング解析、DRCなど、すべてをクラウド上で実行しています。前述の理由から、これは非常に強力で、AWSで並列フローを実行し、最後の機能追加やバグ修正を含め、より高品質なテープアウトを実現できています。

Thumbnail 2520

もう一つの例をご紹介します。フロントエンドVCSツールのクラウドモデルの成功を受けて、私たちは再びパートナーであるSynopsysに、PrimeTimeとICVについても同様の機能を有効にするよう要請し、実現していただきました。ICVは、他のすべての工程が完了し、設計におけるすべてのデザインルール違反を除去しようとする最終段階で使用されるツールです。このプロセスは広範な並列化が可能です。ここでクラウドの柔軟性とスケールを活用し、複数のマシンとエンジニアが同じ設計に対して並行して作業し、すべてのDRC問題に対処できるようにしました。使用量が10倍以上のダイナミックレンジで変動することは珍しくありません。さらに、利用可能な最速のマシンにアクセスしてワークロードを分散できることで、これらの複雑なテープアウトに必要なスケールとスピードを実現できました。

Thumbnail 2600

ここでの重要なポイントは、フロントエンドデザインでもバックエンドデザインでも、クラウドモデルによってTime to MarketやTape outの時間が短縮され、エンジニアの生産性が向上したということです。要約すると、私たちの事業規模において実質的に無制限のリソースにアクセスでき、チップ設計プロセスが大幅に改善されました。より早くTape outができ、しかも品質も大幅に向上するという成果は、他の方法では実現不可能なものです。最終的に、お客様により早くチップをお届けできることこそが重要なのです。

Thumbnail 2630

将来を見据えると、クラウドを活用したEDAがさらに加速していくことは明らかです。AWSでは、この革新の最前線に立ち続けることをお約束します。最新のハードウェアとソフトウェアソリューションへの投資を継続し、EDAコミュニティとの協力を進め、皆様のEDAイノベーションを加速するための堅牢で安全なグローバルインフラを提供していきます。皆様には、ぜひ私たちとつながっていただき、ここにいる専門家たちと交流し、EDAワークロードをAWSに移行する可能性を探っていただきたいと思います。本日はご参加いただき、誠にありがとうございました。アンケートへのご協力をお願いいたします。皆様からのコメントは私たちにとって非常に重要で、来年どのようなコンテンツを提供すべきかを理解する上で大変参考になります。私たちの連絡先を記載しており、QRコードから直接LinkedInページにアクセスできます。ぜひ私たちとつながっていただき、アイデアを共有し、どのような形で協力できるかを探っていければと思います。お時間をいただき、ありがとうございました。


※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。

Discussion