Added atan2f_interleaved for SSE and AVX, and optimised some SSE interleaved functions

JishinMaster · JishinMaster · commit f82383035c94 · 2021-11-18T22:40:36.000+01:00
diff --git a/simd_test.c b/simd_test.c
@@ -5703,6 +5703,61 @@ for (int i = 0; i < len; i++){
 #endif
 
 
+    printf("\n");
+    /////////////////////////////////////////////////////////// ATANF2_INTERLEAVED /////////////////////////////////////////////////////
+    printf("ATANF2_INTERLEAVED\n");
+
+    for (int i = 0; i < 2*len; i++) {
+        inout[i] = (float) (-1.0f * i + 0.15f) / 2.5f / (float) (5 * len);
+        inout_ref[i] = 50.0f;
+        inout2_ref[i] = 50.0f;
+    }
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    atan2f_interleaved_C((complex32_t*)inout, inout_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
+    printf("atan2f_interleaved_C %d %lf\n", len, elapsed);
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    for (l = 0; l < loop; l++)
+        atan2f_interleaved_C((complex32_t*)inout, inout_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
+    printf("atan2f_interleaved_C %d %lf\n", len, elapsed);
+
+#ifdef SSE
+    clock_gettime(CLOCK_REALTIME, &start);
+    atan2128f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
+    printf("atan2128f_interleaved %d %lf\n", len, elapsed);
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    for (l = 0; l < loop; l++)
+        atan2128f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
+    printf("atan2128f_interleaved %d %lf\n", len, elapsed);
+    l2_err(inout2_ref, inout_ref, len);
+#endif
+
+#ifdef AVX
+    clock_gettime(CLOCK_REALTIME, &start);
+    atan2256f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
+    printf("atan2256f_interleaved %d %lf\n", len, elapsed);
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    for (l = 0; l < loop; l++)
+        atan2256f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
+    printf("atan2256f_interleaved %d %lf\n", len, elapsed);
+    l2_err(inout2_ref, inout_ref, len);
+#endif
+
     printf("\n");
     /////////////////////////////////////////////////////////// ATAN //////////////////////////////////////////////////////////////////////////////
     printf("ATAN\n");
diff --git a/simd_utils.h b/simd_utils.h
@@ -93,29 +93,43 @@ typedef enum {
 static inline int isAligned(uintptr_t ptr, size_t alignment)
 {
 #ifndef ALWAYS_ALIGNED
+
+#ifndef ARM  //ARM manages disalignment in hardware
     if (((uintptr_t)(ptr) % alignment) == 0)
         return 1;
     return 0;
 #else
     return 1;
 #endif
+
+#else
+    return 1;
+#endif
 }
 
 static inline int areAligned2(uintptr_t ptr1, uintptr_t ptr2, size_t alignment)
 {
 #ifndef ALWAYS_ALIGNED
+
+#ifndef ARM  //ARM manages disalignment in hardware
     if (((uintptr_t)(ptr1) % alignment) == 0)
         if (((uintptr_t)(ptr2) % alignment) == 0)
             return 1;
     return 0;
 #else
     return 1;
 #endif
+
+#else
+    return 1;
+#endif
 }
 
 static inline int areAligned3(uintptr_t ptr1, uintptr_t ptr2, uintptr_t ptr3, size_t alignment)
 {
 #ifndef ALWAYS_ALIGNED
+
+#ifndef ARM  //ARM manages disalignment in hardware
     if (((uintptr_t)(ptr1) % alignment) == 0)
         if (((uintptr_t)(ptr2) % alignment) == 0)
             if (((uintptr_t)(ptr3) % alignment) == 0)
@@ -124,6 +138,10 @@ static inline int areAligned3(uintptr_t ptr1, uintptr_t ptr2, uintptr_t ptr3, si
 #else
     return 1;
 #endif
+
+#else
+    return 1;
+#endif
 }
 
 
@@ -153,6 +171,66 @@ static inline void simd_utils_get_version(void)
 
 #endif /* ARM */
 
+#ifndef ARM
+typedef struct {
+    v4sf val[2];
+} v4sfx2;
+#else
+typedef float32x4x2_t v4sfx2;
+#endif
+
+static inline v4sfx2 _mm_load2_ps(float const *mem_addr)
+{
+#ifdef ARM
+    return vld2q_f32(mem_addr);
+#else
+    v4sf tmp1 = _mm_load_ps(mem_addr);
+    v4sf tmp2 = _mm_load_ps(mem_addr + SSE_LEN_FLOAT);
+    v4sfx2 ret;
+    ret.val[0] = _mm_shuffle_ps(tmp1, tmp2, _MM_SHUFFLE(2, 0, 2, 0));
+    ret.val[1] = _mm_shuffle_ps(tmp1, tmp2, _MM_SHUFFLE(3, 1, 3, 1));
+    return ret;
+#endif
+}
+
+static inline v4sfx2 _mm_load2u_ps(float const *mem_addr)
+{
+#ifdef ARM
+    return vld2q_f32(mem_addr);
+#else
+    v4sf tmp1 = _mm_loadu_ps(mem_addr);
+    v4sf tmp2 = _mm_loadu_ps(mem_addr + SSE_LEN_FLOAT);
+    v4sfx2 ret;
+    ret.val[0] = _mm_shuffle_ps(tmp1, tmp2, _MM_SHUFFLE(2, 0, 2, 0));
+    ret.val[1] = _mm_shuffle_ps(tmp1, tmp2, _MM_SHUFFLE(3, 1, 3, 1));
+    return ret;
+#endif
+}
+
+static inline void _mm_store2_ps(float *mem_addr, v4sfx2 a)
+{
+#ifdef ARM
+    vst2q_f32(mem_addr, a);
+#else
+    v4sf tmp1 = _mm_unpacklo_ps(a.val[0], a.val[1]);
+    v4sf tmp2 = _mm_unpackhi_ps(a.val[0], a.val[1]);
+    _mm_store_ps(mem_addr, tmp1);
+    _mm_store_ps(mem_addr + SSE_LEN_FLOAT, tmp2);
+#endif
+}
+
+static inline void _mm_store2u_ps(float *mem_addr, v4sfx2 a)
+{
+#ifdef ARM
+    vst2q_f32(mem_addr, a);
+#else
+    v4sf tmp1 = _mm_unpacklo_ps(a.val[0], a.val[1]);
+    v4sf tmp2 = _mm_unpackhi_ps(a.val[0], a.val[1]);
+    _mm_storeu_ps(mem_addr, tmp1);
+    _mm_storeu_ps(mem_addr + SSE_LEN_FLOAT, tmp2);
+#endif
+}
+
 //Warning, declared in reverse order since it's little endian :
 // const v4sf conj_mask = _mm_set_ps(-1.0f, 1.0f, -1.0f, 1.0f);
 static const float _ps_conj_mask[4] __attribute__((aligned(16))) = {1.0f, -1.0f, 1.0f, -1.0f};
@@ -1328,6 +1406,17 @@ static inline void atan2f_C(float *src1, float *src2, float *dst, int len)
     }
 }
 
+static inline void atan2f_interleaved_C(complex32_t *src, float *dst, int len)
+{
+#ifdef OMP
+#pragma omp simd
+#endif
+    for (int i = 0; i < len; i++) {
+        dst[i] = atan2f(src[i].im, src[i].re);
+    }
+}
+
+
 
 static inline void sinf_C(float *src, float *dst, int len)
 {
diff --git a/simd_utils_avx_double.h b/simd_utils_avx_double.h
@@ -563,7 +563,7 @@ static inline v4sd atan256_pd(v4sd xx)
     flag = _mm256_blendv_pd(flag, *(v4sd *) _pd256_1, suptan3pi8);                 // if( x > tan 3pi/8 ) then flag = 1
 
     inftan3pi8inf0p66 = _mm256_and_pd(_mm256_cmp_pd(x, *(v4sd *) _pd256_TAN3PI8, _CMP_LE_OS), _mm256_cmp_pd(x, zerop66, _CMP_LE_OS));  // if( x <= tan 3pi/8 ) && (x <= 0.66)
-    y = _mm256_blendv_pd(*(v4sd *) _pd_PIO4, y, inftan3pi8inf0p66);                                                                    // y = 0 or PIO4
+    y = _mm256_blendv_pd(*(v4sd *) _pd256_PIO4, y, inftan3pi8inf0p66);                                                                 // y = 0 or PIO4
     x = _mm256_blendv_pd(_mm256_div_pd(_mm256_sub_pd(x, *(v4sd *) _pd256_1), _mm256_add_pd(x, *(v4sd *) _pd256_1)), x, inftan3pi8inf0p66);
     flag = _mm256_blendv_pd(flag, *(v4sd *) _pd256_2, _mm256_cmp_pd(*(v4sd *) _pd256_PIO4, y, _CMP_EQ_OS));  // if y = PIO4 then flag = 2
 
diff --git a/simd_utils_avx_float.h b/simd_utils_avx_float.h
@@ -627,7 +627,7 @@ static inline void print8(__m256 v)
 }
 
 // converts 32bits complex float to two arrays real and im
-//Work in progress
+//Work in progress => could be improved with custom SSE mm_load2_ps
 static inline void cplxtoreal256f(float *src, float *dstRe, float *dstIm, int len)
 {
     int stop_len = 2 * len / (AVX_LEN_FLOAT);
@@ -1535,6 +1535,52 @@ static inline void atan2256f(float *src1, float *src2, float *dst, int len)
     }
 }
 
+static inline void atan2256f_interleaved(complex32_t *src, float *dst, int len)
+{
+    int stop_len = len / (2 * AVX_LEN_FLOAT);
+    stop_len *= 2 * AVX_LEN_FLOAT;
+
+    int j = 0;
+    if (areAligned2((uintptr_t)(src), (uintptr_t)(dst), AVX_LEN_BYTES)) {
+        for (int i = 0; i < stop_len; i += 2 * AVX_LEN_FLOAT) {
+            v4sfx2 src_1 = _mm_load2_ps((float *) (src) + j);
+            v4sfx2 src_2 = _mm_load2_ps((float *) (src) + j + 2 * SSE_LEN_FLOAT);
+            v4sfx2 src_3 = _mm_load2_ps((float *) (src) + j + 4 * SSE_LEN_FLOAT);
+            v4sfx2 src_4 = _mm_load2_ps((float *) (src) + j + 6 * SSE_LEN_FLOAT);
+
+            v8sf src_a_re = _mm256_set_m128(src_2.val[0], src_1.val[0]);
+            v8sf src_a_im = _mm256_set_m128(src_2.val[1], src_1.val[1]);
+            v8sf src_b_re = _mm256_set_m128(src_4.val[0], src_3.val[0]);
+            v8sf src_b_im = _mm256_set_m128(src_4.val[1], src_3.val[1]);
+            _mm256_store_ps(dst + i, atan2256f_ps(src_a_im, src_a_re));
+            _mm256_store_ps(dst + i + AVX_LEN_FLOAT, atan2256f_ps(src_b_im, src_b_re));
+
+            j += 4 * AVX_LEN_FLOAT;
+        }
+    } else {
+        for (int i = 0; i < stop_len; i += 2 * AVX_LEN_FLOAT) {
+            v4sfx2 src_1 = _mm_load2u_ps((float *) (src) + j);
+            v4sfx2 src_2 = _mm_load2u_ps((float *) (src) + j + 2 * SSE_LEN_FLOAT);
+            v4sfx2 src_3 = _mm_load2u_ps((float *) (src) + j + 4 * SSE_LEN_FLOAT);
+            v4sfx2 src_4 = _mm_load2u_ps((float *) (src) + j + 6 * SSE_LEN_FLOAT);
+
+            v8sf src_a_re = _mm256_set_m128(src_2.val[0], src_1.val[0]);
+            v8sf src_a_im = _mm256_set_m128(src_2.val[1], src_1.val[1]);
+            v8sf src_b_re = _mm256_set_m128(src_4.val[0], src_3.val[0]);
+            v8sf src_b_im = _mm256_set_m128(src_4.val[1], src_3.val[1]);
+            _mm256_storeu_ps(dst + i, atan2256f_ps(src_a_im, src_a_re));
+            _mm256_storeu_ps(dst + i + AVX_LEN_FLOAT, atan2256f_ps(src_b_im, src_b_re));
+
+            j += 4 * AVX_LEN_FLOAT;
+        }
+    }
+
+    for (int i = stop_len; i < len; i++) {
+        dst[i] = atan2f(src[i].im, src[i].re);
+    }
+}
+
+
 static inline v8sf asin256f_ps(v8sf xx)
 {
     v8sf a, x, z, z_tmp;
diff --git a/simd_utils_sse_float.h b/simd_utils_sse_float.h