🖥️
動き予測(おまけ)
こんにちは。Nakamuraです。
さすがに20倍にはならないので、と書きましたが、よく考えたら、最近のx86 では サイクルあたりで 16byte の sad が一個取れるので、20倍ぐらい出そうな気がしたので試してみました。
https://bitbucket.org/fixstars/blog/commits/ee5b03c2e280691ee85ddd3c91ac086875865ab5
普通に書いたCが、65[msec] ぐらいで、_mm_sad_epu8(psadbw) を使うと、10~13[msec]ぐらいになるようです。(i7-4700MQ)
残念ながら20倍にはなりませんね…(真面目にやるなら16倍にならない原因調べないといけないですが…)
Discussion