💡
a64fx fp&SIMD のロードレイテンシのメモ
fp&SIMD(FL* pipe, short mode(=128bit?))の場合は latency 8(一部11のもある),
ちなみに SVE は short mode?(128bit, 256bit)でも 11
(a64fx spec table 9-2 では SVE short mode では 8 とあるが間違っている模様)
ただし, 先行命令に sve load(latency 11) があるとレイテンシ切り替えが起きて 8->11となる.
おまけ
a64fx spec では SVE のなにが short mode なのかは定義がない.
基本的に SVE ld は VL(vector length)関係なくて,
SVE 演算系のレイテンシが VL によって変わる(VL 短いほうがレイテンシ低い)のは FADDV など horizontal reduction があるのと, FDIV, FSQRT くらい.
Integer(EX* pipe, 64bit?)では latency 5
こちらも先行命令に fp&SIMD ロード命令があるとレイテンシ切り替え起きて 5->8
いかがでしたか.
さらに気になるかたは ChatGPT クンや Claude クンに聞いてみてくださいね.
Discussion