tzhash

65 commits 2 branches 2 tags 255 KiB

Author	SHA1	Message	Date
Evgenii Stratonikov	bbbcf3fa5c	Use unaligned move in AVX2 implementation Signed-off-by: Evgenii Stratonikov <evgeniy@nspcc.ru>	2021-12-29 13:23:05 +03:00
Evgenii Stratonikov	c8a32b25ec	Optimize AVX2 implementation We use 6 instructions only to calculate mask based on single bit value. Use only 3 now and calculate multiple masks in parallel. Also `VPSUB` is faster than VPBROADCAST, see https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html . ``` name old time/op new time/op delta Sum/AVX2Inline_digest-8 1.83ms ± 0% 1.62ms ± 1% -11.23% (p=0.000 n=46+42) name old speed new speed delta Sum/AVX2Inline_digest-8 54.7MB/s ± 0% 61.6MB/s ± 1% +12.65% (p=0.000 n=46+42) ``` Signed-off-by: Evgenii Stratonikov <evgeniy@nspcc.ru>	2021-12-29 13:23:05 +03:00
Evgenii Stratonikov	4b7f39cd1d	Move mulBitRightx2 to avx2 assembly file	2019-10-16 15:11:57 +03:00

Author

SHA1

Message

Date

Evgenii Stratonikov

bbbcf3fa5c

Use unaligned move in AVX2 implementation

Signed-off-by: Evgenii Stratonikov <evgeniy@nspcc.ru>

2021-12-29 13:23:05 +03:00

Evgenii Stratonikov

c8a32b25ec

Optimize AVX2 implementation

We use 6 instructions only to calculate mask based on single bit value.
Use only 3 now and calculate multiple masks in parallel.

Also `VPSUB*` is faster than VPBROADCAST*,
see https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html .

```
name                     old time/op    new time/op    delta
Sum/AVX2Inline_digest-8    1.83ms ± 0%    1.62ms ± 1%  -11.23%  (p=0.000 n=46+42)

name                     old speed      new speed      delta
Sum/AVX2Inline_digest-8  54.7MB/s ± 0%  61.6MB/s ± 1%  +12.65%  (p=0.000 n=46+42)
```

Signed-off-by: Evgenii Stratonikov <evgeniy@nspcc.ru>

2021-12-29 13:23:05 +03:00

Evgenii Stratonikov

4b7f39cd1d

Move mulBitRightx2 to avx2 assembly file

2019-10-16 15:11:57 +03:00

Renamed from tz/avx2_inline_amd64.s (Browse further)

3 commits