📖

AWS EC2 F1は何に使われているのか?

に公開

今年中でEOLになりF2に移行するF1くん。サービスとして成功してるのか疑問だったというかどういうニーズで使われてるのかよくわかってなかったのでDeepResearchくんに聞いてみた。F1はオワコンだと思っていたけど、意外とありなんじゃないかという結論。

Illumina社 DRAGEN Bio-IT Platform (ゲノム解析サービス)

https://aws.amazon.com/jp/solutions/case-studies/munich-leukemia-lab/#:~:text=We have been able to,achieved in only 3 hours
2022年の記事

  • サービス内容・対象ユーザー: イルミナ(Illumina)社が提供するDRAGEN Bio-IT Platformは、次世代シーケンス(NGS)データの超高速な二次解析を行うクラウドサービスです​
  • AWS F1の活用ポイント: DRAGENプラットフォームは演算処理をFPGAでハードウェア実装しており、専用ハードによる高速化を実現しています​。例えば、従来解析に20時間かかっていた全ゲノム処理が約3時間で完了するようになったケースも報告されています​。Munich Leukemia Labの導入例では、F1インスタンス活用によりゲノムデータ処理時間を20時間から3時間へ短縮し、白血病診断の効率を大きく向上させました​。またオンプレミスで専用ハードを保有せずにAWS上で必要時にスケールアウトできるため、ピーク時の処理性能確保と運用コスト最適化(スポットインスタンス活用で最大90%費用削減)も実現しています​

ゲノム解析に使うらしい。20時間が3時間になるということなので約6倍速だが、GPUと比較してるのかCPUと比較してるのか?GPUと比較してるならすごそうだけどCPU比6倍ならGPUでいいじゃんとなる。
ちょっと気になったので深掘りしてみる。

2025年のDRAGEN

illumina社は2025年時点で存続しており、オンプレ用のFPGA入りのDRAGEN serverも販売中。速度も改善しているようである。
https://emea.illumina.com/products/by-type/informatics-products/dragen-secondary-analysis/server.html
小さなデータで?26分で完了とか書いてある。あと省エネ性も推している。

https://emea.illumina.com/content/dam/illumina/gcs/assembled-assets/marketing-literature/dragen-integration-tech-note-m-gl-02547/dragen-integration-tech-note-m-gl-02547.pdf
このpdfによると、オンプレだけでなくクラウドオプションも存続している模様。
https://help.dragen.illumina.com/reference/dragen-multi-cloud
しかもAWSだけでなくAzureも対応している。f1とNPインスタンスを使ってるのでちゃんとFPGA使ってる模様。

GPUとの比較について

速度

https://assets.illumina.com/science/genomics-research/articles/secondary-analysis-at-scale.html
ここの図2にちゃんと書いてある。ちゃんとGPUと比較してる。
DRAGEN on NovaSeq XCEというのがめちゃくちゃ早いのだけど、これはオンプレで4枚のU250を使ってるらしい。DRAGEN on P4 ServerがU2501枚のオンプレサーバーなのかな?
気になるのはNP10とかF1の数字。オンプレよりは数段遅くなるみたい。これはデータ転送の時間を含むのかな?まあオンプレより遅くなるのはしょうがないので気にしない。
おもしろいのはNP20とか16xにしてもあんまりスケールしてないところかな。NovaSeq XCEは1.5TBのRAMを積んでるらしいので、RAMがネックになったりしてるんだろうか。

DRAGEN SW on AWSがCPUだけの速度である。これと比較すると確かにFPGAを使って10倍くらいは高速化できてる。
問題はGPUであるが、BWA+GATKと書いてあるやつがDRAGENではないサードパーティのやつをGPUインスタンスで実行した結果
p4d.24xlargeはA100が8基で、オンデマンド料金が約$32/hなのでまあ高いね。
f1.4xlargeの料金はもう見れなくなってる?けど$4/h程度だった模様。
g4dn.12xlargeはRadeon V520が4基で約$4/hなので、コスト的にはこちらが比較対象となる。
これと比較すると確かにGPU比で2〜3倍は出てるのでFPGAの意味はあるかも?

コスト

図3でちゃんとコストの比較もしてくれてる。図3は30x WGSサンプルを処理するのにかかる値段。
これを見るとやはりGPUインスタンスは高い。図4Bでもう少し正確な値がみれるが、コストだとGPU比で4〜5倍の差が出るみたい。これは結構すごいんじゃないかと思う。
NP10のオンデマンド料金って$1204/月になってるので時間当たりだと約1.6$なので安いね。

エネルギー

図5、6でエネルギー評価もしているのが興味深い。
クラウドの値は参考値みたいだがやっぱりGPUは電気食うね。まあ日本でもkWhあたり30円とかなんでオンデマンド料金と比べれば誤差。

Maxeler社 Real Time Risk (金融リスク計算サービス)

https://www.maxeler.com/maxeler_rtr/#:~:text=using the industry standard FPML,minutes and minutes to seconds
2017年の記事

  • サービス名と提供企業: Maxeler Real Time Risk (RTR) は、英Maxeler Technologies社が提供する金融リスク計算の高速化サービスです​。主に銀行・投資会社など金融機関を対象に、トレーディングに伴うリアルタイムのリスク評価(例: カウンターパーティリスクのCVA計算、SIMM、デリバティブ価格評価など)をクラウド上で提供しています​
  • AWS F1の活用ポイント: Maxeler社独自のデータフローエンジン(DFE)によるリスク計算アルゴリズムをFPGA上に実装し、AWSのF1インスタンス上で動作させています​
  • 高速化・効率化されている処理: 金融商品の複雑なリスク数値計算(モンテカルロシミュレーション等)が飛躍的に高速化されています。MaxelerのDFE実装では、従来数時間かかっていた計算を数分に短縮、数分だった処理を数秒で完了させることが可能と報告されています​
  • 導入による効果: 金融機関にとっては、リスク計算の高速化により取引前の瞬時のリスク評価やシミュレーションが可能となり、より俊敏な意思決定やポートフォリオ調整が実現できます​

金融のリアルタイム評価に使うらしい。金融は確かに他社より少しでも早いことが求められるのでFPGAは向いてると思う。
調べてみるとFPGAのIP売りの会社みたいで、まあF1にもデプロイできますよということらしい。
AESのIPを持ってるし、FHEに手を出してる記述もある。
会社は2025年時点も続いてるみたい。
https://appgallery.maxeler.com/#/
ここでF1対応のアプリをフィルタできるが、一つも出てこないのでやっぱり流行ってない・・・?
https://maxeler.com/deeptech/#/dominos
ここをみるとF1が大きく表示されててfeatureされてるような気もするが・・・?

Socionext社 H.264 Encoder on AWS (映像配信向け高速エンコーダ)

https://socionextus.com/pressreleases/h-264-video-encoder-available-on-amazon-web-services/#:~:text=the ,titles at a reasonable cost
2020年の記事

  • サービス内容・対象ユーザー: ソシオネクスト(Socionext)社の**「H.264 Encoder on AWS」は、クラウド上で利用できる高性能・高画質なH.264動画エンコーダサービスです​
  • インターネット動画配信で広く使われるH.264形式に対応したエンコーダを提供し、放送局やストリーミング事業者がコンテンツ制作後のエンコード〜配信までの時間を大幅に短縮することを狙いとしています​
  • AWS F1の活用ポイント: このサービスでは、AWS F1インスタンス上のFPGAに実装したSocionext社独自のハードウェア映像圧縮回路を用いてエンコード処理を行います​
  • FPGAを利用することで、フルHD(1080p)動画を最大120fpsで処理できるなどリアルタイムを超える速度と高画質圧縮を両立しており​、ライブ配信や大量のコンテンツの一括トランスコードに威力を発揮します。
  • 高速化・効率化されている処理: 映像のエンコード処理そのものが高速化されています。従来CPUソフトウェアで時間のかかっていたH.264エンコードをFPGAハードウェアで処理することで、映像制作から配信までのリードタイムを約70%短縮できます​。低遅延モードではエンドツーエンドの遅延を100ミリ秒程度まで抑えられるため、インタラクティブなVR/AR映像配信など高リアルタイム性が要求される用途にも対応可能です。
  • 導入による効果: 本サービス導入により、動画配信事業者はコンテンツの配信スピードを飛躍的に向上できます​。例えば新作映像の編集後すぐに高速エンコードし、多数の配信フォーマットを短時間で用意できるため、ユーザーへの提供開始までの時間が短縮されました(**従来比30%**の所要時間で納品可能)​。さらにFPGA活用による高いエンコード効率はトランスコード用インスタンス数の削減につながり、コスト効率の向上および取り扱えるタイトル数増加(同じコストでより多くの動画を配信可能)といった効果も得られています​

リアルタイム配信に使うらしい。普通にGPUの専用命令使ったほうが早いんじゃね?と思うけどもリアルタイム性はFPGAのほうがあるんだろうか?もしくはスマホとかの非力なカメラから(ロスレスで?)アップロードしてエンコードするとか?
編集後って書いてあるからリアルタイム配信というわけでもないのかな。多数のフォーマットに対応するのは確かに大変そうだけど従来比30%=3倍くらいならGPUインスタンスでいいんじゃないかという疑問はあり続ける。
インタラクティブなVR/AR配信っていうのはどんなんだろう?VTuberとか?あまりイメージできない・・・
これに関しては最新情報が出てこなかった。ソシオネクストはもちろん存続しているがサービスはどうなっているのか・・・?

まとめ

わかっていたことだが、F1(とかのクラウドFPGA)の強みはオンプレに持たなくても使えるってこと。性能だけをみるとオンプレの方が絶対的によくなる。スポット料金でFPGAを使うとかなり安いのがよさそう。
GPUと比較した場合GPUの方がスケールさせやすいのでFPGAと同じ性能を出そうと思えば出せる。ただコストが結構高い。昔はU250が100万で高いなーとか言ってたけど今H100は500万超えるので実はFPGAのほうがコスパいい。
まあU250が先端かと言われると微妙で、Versalとかだと500万超えてくるが・・・
そう考えるとVersalはコスパ悪いのでF2がVersalにしなかったのもなんとなくわかる。

導入含めたコストで見た時GPU<FPGAのイメージだったけど、どうやらGPUが高級品になりつつありGPU>FPGAになっていってるんだなあという気持ち。HPCに(クラウド)FPGAって全然ありなんじゃないか?
NP10インスタンスをオンプレに導入しようとするとたぶん今300万くらいはかかる。
オンデマンド料金が月15万なので、2年以上使うならオンプレのほうが安いかなという感じだが、クラウドのメリットを考えると全然ペイしそう。スポットでいいなら全然安いし

Discussion