JishinMaster
diff --git a/‎README.md
+4-2 b/‎README.md
+4-2
diff --git a/‎simd_test.c
+23-7 b/‎simd_test.c
+23-7
diff --git a/‎simd_utils.h
+57-21 b/‎simd_utils.h
+57-21
@@ -121,6 +121,7 @@ The following table is a work in progress, "X" means there is not yet an impleme
 | atanh128f                      | atanh256f                      | atanh512f                  | atanhf_C                  | ippsAtanh_32f_A24            | X                           | X                    |
 | atan128f                       | atan256f                       | atan512f                   | atanf_C                   | ippsAtan_32f_A24             | X                           | X                    |
 | atan2128f                      | atan2256f                      | atan2512f                  | atan2f_C                  | ippsAtan2_32f_A24            | X                           | X                    |
+| atan2128f_interleaved          | atan2256f_interleaved          | X                          | atan2f_interleaved_C      | X                            | X                           | X                    |
 | asin128f                       | asin256f                       | asin512f                   | asinf_C                   | ippsAsin_32f_A24             | X                           | X                    |
 | tanh128f                       | tanh256f                       | tanh512f                   | tanhf_C                   | ippsTanh_32f_A24             | X                           | X                    |
 | tan128f                        | tan256f                        | tan512f                    | tanf_C                    | ippsTan_32f_A24              | X                           | X                    |
@@ -140,6 +141,7 @@ The following table is a work in progress, "X" means there is not yet an impleme
 | cplxconjvecmul128f             | cplxconjvecmul256f             | cplxconjvecmul512f         | cplxconjvecmul_C          | ippsMulByConj_32fc_A24       | X                           | X                    |
 | cplxconjvecmul128f_split       | cplxconjvecmul256f_split       | cplxconjvecmul512f_split   | cplxconjvecmul_C_split    | X                            | X                           | X                    |
 | cplxconj128f                   | cplxconj256f                   | cplxconj512f               | cplxconj_C                | ippsConj_32fc_A24            | X                           | X                    |
+| cplxvecdiv12                   | cplxvecdiv256f                 | cplxvecdiv512f             | cplxvecdiv_C              | X                            | X                           | X                    |
 | set128d                        | set256d                        | set512d                    | setd_C                    | ippsSet_64f                  | X                           | X                    |
 | zero128d                       | zero256d                       | zero512d                   | zerod_C                   | ippsZero_64f                 | X                           | X                    |
 | copy128d                       | copy256d                       | copy512d                   | copyd_C                   | ippsCopy_64f                 | X                           | X                    |
@@ -168,8 +170,8 @@ The following table is a work in progress, "X" means there is not yet an impleme
 | addc128s                       | addc256s                       | addc512s                   | addcs_C                   | X                            | addcs_vec                   | X                    |
 | vectorSlope128s                | X                              | X                          | vectorSlopes_C            | ippsVectorSlope_32s          | X                           | X                    |
 | copy128s                       | copy256s                       | copy512s                   | copys_C                   | ippsCopy_32s                 | X                           | X                    |
-| absdiff16s_128s                | vectorSlope256s                | X                          | X                         | X                            | mulcs_vec                   | X                    |
-| powerspect16s_128s_interleaved | powerspect16s_256s_interleaved | X                          | ors_c                     | ippsOr_32u                   | X                           | X                    |
+| absdiff16s_128s                | absdiff16s_256s                | X                          | X                         | X                            | mulcs_vec                   | X                    |
+| X                              | X                              | X                          | ors_c                     | ippsOr_32u                   | X                           | X                    |
 | X                              | X                              | X                          | ands_c                    | ippsAnd_32u                  | X                           | X                    |
 | sigmoid128f                    | sigmoid256f                    | X                          | sigmoidf_C                | X                            | X                           | X                    |
 | PRelu128f                      | PRelu256f                      | X                          | PReluf_C                  | X                            | X                           | PRelu128f            |
 
@@ -5707,35 +5707,35 @@ for (int i = 0; i < len; i++){
     /////////////////////////////////////////////////////////// ATANF2_INTERLEAVED /////////////////////////////////////////////////////
     printf("ATANF2_INTERLEAVED\n");
 
-    for (int i = 0; i < 2*len; i++) {
+    for (int i = 0; i < 2 * len; i++) {
         inout[i] = (float) (-1.0f * i + 0.15f) / 2.5f / (float) (5 * len);
         inout_ref[i] = 50.0f;
         inout2_ref[i] = 50.0f;
     }
 
     clock_gettime(CLOCK_REALTIME, &start);
-    atan2f_interleaved_C((complex32_t*)inout, inout_ref, len);
+    atan2f_interleaved_C((complex32_t *) inout, inout_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
     printf("atan2f_interleaved_C %d %lf\n", len, elapsed);
 
     clock_gettime(CLOCK_REALTIME, &start);
     for (l = 0; l < loop; l++)
-        atan2f_interleaved_C((complex32_t*)inout, inout_ref, len);
+        atan2f_interleaved_C((complex32_t *) inout, inout_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
     printf("atan2f_interleaved_C %d %lf\n", len, elapsed);
 
 #ifdef SSE
     clock_gettime(CLOCK_REALTIME, &start);
-    atan2128f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    atan2128f_interleaved((complex32_t *) inout, inout2_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
     printf("atan2128f_interleaved %d %lf\n", len, elapsed);
 
     clock_gettime(CLOCK_REALTIME, &start);
     for (l = 0; l < loop; l++)
-        atan2128f_interleaved((complex32_t*)inout,  inout2_ref, len);
+        atan2128f_interleaved((complex32_t *) inout, inout2_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
     printf("atan2128f_interleaved %d %lf\n", len, elapsed);
@@ -5744,14 +5744,14 @@ for (int i = 0; i < len; i++){
 
 #ifdef AVX
     clock_gettime(CLOCK_REALTIME, &start);
-    atan2256f_interleaved((complex32_t*)inout,  inout2_ref, len);
+    atan2256f_interleaved((complex32_t *) inout, inout2_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
     printf("atan2256f_interleaved %d %lf\n", len, elapsed);
 
     clock_gettime(CLOCK_REALTIME, &start);
     for (l = 0; l < loop; l++)
-        atan2256f_interleaved((complex32_t*)inout,  inout2_ref, len);
+        atan2256f_interleaved((complex32_t *) inout, inout2_ref, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
     printf("atan2256f_interleaved %d %lf\n", len, elapsed);
@@ -6277,6 +6277,22 @@ for (int i = 0; i < len; i++){
     l2_errd(inoutd_ref, inoutd, len);
 #endif
 
+#ifdef AVX512
+    clock_gettime(CLOCK_REALTIME, &start);
+    vectorSlope512d(inoutd, len, 2.5, 3.0);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
+    printf("vectorSlope512d %d %lf\n", len, elapsed);
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    for (l = 0; l < loop; l++)
+        vectorSlope512d(inoutd, len, 2.5, 3.0);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
+    printf("vectorSlope512d %d %lf\n", len, elapsed);
+    l2_errd(inoutd_ref, inoutd, len);
+#endif
+
     printf("\n");
     /////////////////////////////////////////////////////////// SIGMOID //////////////////////////////////////////////////////////////////////////////
     printf("SIGMOID\n");
 
@@ -21,6 +21,7 @@ extern "C" {
 
 #include <math.h>
 #include <stdint.h>
+#include <stdio.h>
 
 static const float FOPI = 1.27323954473516f;
 static const float PIO4F = 0.7853981633974483096f;
@@ -60,25 +61,36 @@ static const int32_t inv_sign_mask = ~SIGN_MASK;
 #define IMM8_PERMUTE_128BITS_LANES 0x1  // reverse abcd efgh to efgh abcd
 #define M_PI 3.14159265358979323846
 
-typedef struct {
-    int16_t re;
-    int16_t im;
+typedef union {
+    struct {
+        int16_t re;
+        int16_t im;
+    };
+    int16_t c[2];
 } complex16s_t;
 
-typedef struct {
-    int32_t re;
-    int32_t im;
+typedef union {
+    struct {
+        int32_t re;
+        int32_t im;
+    };
+    int32_t c[2];
 } complex32s_t;
 
-typedef struct {
-    float re;
-    float im;
+typedef union {
+    struct {
+        float re;
+        float im;
+    };
+    float c[2];
 } complex32_t;
 
-
-typedef struct {
-    double re;
-    double im;
+typedef union {
+    struct {
+        double re;
+        double im;
+    };
+    double c[2];
 } complex64_t;
 
 typedef enum {
@@ -647,6 +659,30 @@ _PI256_64_CONST(2, 2);
 _PI256_64_CONST(4, 4);
 _PI256_64_CONST(0x7f, 0x7f);
 
+typedef struct {
+    v8sf val[2];
+} v8sfx2;
+
+static inline v8sfx2 _mm256_load2_ps(float const *mem_addr)
+{
+    v4sfx2 src_1 = _mm_load2_ps(mem_addr);
+    v4sfx2 src_2 = _mm_load2_ps(mem_addr + 2 * SSE_LEN_FLOAT);
+    v8sfx2 ret;
+    ret.val[0] = _mm256_set_m128(src_2.val[0], src_1.val[0]);
+    ret.val[1] = _mm256_set_m128(src_2.val[1], src_1.val[1]);
+    return ret;
+}
+
+static inline v8sfx2 _mm256_load2u_ps(float const *mem_addr)
+{
+    v4sfx2 src_1 = _mm_load2u_ps(mem_addr);
+    v4sfx2 src_2 = _mm_load2u_ps(mem_addr + 2 * SSE_LEN_FLOAT);
+    v8sfx2 ret;
+    ret.val[0] = _mm256_set_m128(src_2.val[0], src_1.val[0]);
+    ret.val[1] = _mm256_set_m128(src_2.val[1], src_1.val[1]);
+    return ret;
+}
+
 #include "simd_utils_avx_double.h"
 #include "simd_utils_avx_float.h"
 #include "simd_utils_avx_int32.h"
@@ -907,23 +943,23 @@ static inline void fabsf_C(float *src, float *dst, int len)
     }
 }
 
-static inline void setf_C(float *src, float value, int len)
+static inline void setf_C(float *dst, float value, int len)
 {
 #ifdef OMP
 #pragma omp simd
 #endif
     for (int i = 0; i < len; i++) {
-        src[i] = value;
+        dst[i] = value;
     }
 }
 
-static inline void zerof_C(float *src, int len)
+static inline void zerof_C(float *dst, int len)
 {
 #ifdef OMP
 #pragma omp simd
 #endif
     for (int i = 0; i < len; i++) {
-        src[i] = 0.0f;
+        dst[i] = 0.0f;
     }
 }
 
@@ -1777,23 +1813,23 @@ static inline void subs_c(int32_t *a, int32_t *b, int32_t *c, int len)
 }*/
 
 
-static inline void setd_C(double *src, double value, int len)
+static inline void setd_C(double *dst, double value, int len)
 {
 #ifdef OMP
 #pragma omp simd
 #endif
     for (int i = 0; i < len; i++) {
-        src[i] = value;
+        dst[i] = value;
     }
 }
 
-static inline void zerod_C(double *src, int len)
+static inline void zerod_C(double *dst, int len)
 {
 #ifdef OMP
 #pragma omp simd
 #endif
     for (int i = 0; i < len; i++) {
-        src[i] = 0.0;
+        dst[i] = 0.0;
     }
 }