画像解析を高速化させるためのTipsわかりやすくまとめてみた(5)
前回(第4回)は、整数型での四捨五入を、AVX2の整数型で実装しました。
今回は、もっと単純なお題で、SSE2とAVX2の比較をしてみたいと思います。
お題乱数の入った80000000個の符号なし8bit整数型の配列を2つ(X, Y)を用意し、XとYの要素同士の平均値Zを求めます(ただし、小数点以下は切り上げ)。つまり、Z[i] = ceil(X[i] + Y[i]) です。
実装前回までは、32bit整数型でしたが、今回は8bit整数型です。SSE2の場合はレジスタが