added multiple Altivec functions

JishinMaster · JishinMaster · commit 296d6c2ad9f8 · 2022-12-20T11:49:20.000+01:00
diff --git a/README.md b/README.md
@@ -108,7 +108,7 @@ The following table is a work in progress, "?" means there is not yet an impleme
 | convertFloat32ToU8_X  (a)                             | convertFloat32ToU8_C        | ippsConvert_32f8u_Sfs          | ?                             |
 | convertFloat32ToU16_X (a)                             | convertFloat32ToI16_C       | ippsConvert_32f16u_Sfs         | ?                             |
 | convertFloat32ToI16_X  (a)                            | convertFloat32ToI16_C       | ippsConvert_32f16s_Sfs         | ?                             |
-| convertInt16ToFloat32_X                               | convertInt16ToFloat32_C     | ippsConvert_16s32f_Sfs         | ?                             |
+| convertInt16ToFloat32_X  (a)                          | convertInt16ToFloat32_C     | ippsConvert_16s32f_Sfs         | ?                             |
 | cplxtorealXf   (a)                                    | cplxtorealf_C               | ippsCplxToReal_32fc            | cplxtorealf_vec               |
 | realtocplxXf   (a)                                    | realtocplx_C                | ippsRealToCplx_32f             | realtocplxf_vec               |
 | convertX_64f32f                                       | convert_64f32f_C            | ippsConvert_64f32f             | convert_64f32f_vec            |
@@ -201,7 +201,7 @@ The following table is a work in progress, "?" means there is not yet an impleme
 | copyXs  (a)                                           | copys_C                     | ippsCopy_32s                   | copys_vec                     |
 | ?                                                     | ?                           | ?                              | mulcs_vec                     |
 | absdiff16s_Xs (a)                                     | absdiff16s_c                | ?                              | ?                             |
-| sum16s32sX                                            | sum16s32s_C                 | ippsSum_16s32s_Sfs             | ?                             |
+| sum16s32sX (a)                                           | sum16s32s_C                 | ippsSum_16s32s_Sfs             | ?                             |
 | ?                                                     | ors_c                       | ippsOr_32u                     | ?                             |
 | ?                                                     | ands_c                      | ippsAnd_32u                    | ?                             |
 | sigmoidXf                                             | sigmoidf_C                  | ?                              | ?                             |
diff --git a/simd_test.c b/simd_test.c
@@ -9832,7 +9832,7 @@ for (int i = 0; i < len; i++){
     l2_err(inout_ref, inout2_ref, len);
 #endif
 
-#if defined(SSE) // || defined(ALTIVEC)
+#if defined(SSE) || defined(ALTIVEC)
     clock_gettime(CLOCK_REALTIME, &start);
     convertInt16ToFloat32_128(inout_s1, inout_ref, len, 4);
     clock_gettime(CLOCK_REALTIME, &stop);
@@ -10518,7 +10518,7 @@ for (int i = 0; i < len; i++){
     printf("%d %d\n", inout_iref[0], inout_i1[0]);
 #endif
 
-#ifdef SSE
+#if defined(SSE) || defined(ALTIVEC)
     clock_gettime(CLOCK_REALTIME, &start);
     sum16s32s128(inout_s1, len, &inout_i1[0], 3);
     clock_gettime(CLOCK_REALTIME, &stop);
diff --git a/simd_utils_altivec_float.h b/simd_utils_altivec_float.h
@@ -3910,7 +3910,41 @@ static inline void convertFloat32ToU8_128(float *src, uint8_t *dst, int len, int
             vec_st(tmp7, 0, dst + i);
         }
     } else {
-      //TODO
+        int unalign_src = (uintptr_t) (src) % ALTIVEC_LEN_BYTES;
+        int unalign_dst = (uintptr_t) (dst) % ALTIVEC_LEN_BYTES;
+
+        for (int i = 0; i < stop_len; i += 4 * ALTIVEC_LEN_FLOAT) {
+            v4sf src_tmp1, src_tmp2, src_tmp3, src_tmp4;
+            if (unalign_src) {
+                src_tmp1 = (v4sf) vec_ldu((unsigned char *) (src + i));
+                src_tmp2 = (v4sf) vec_ldu((unsigned char *) (src + i + ALTIVEC_LEN_FLOAT));
+                src_tmp3 = (v4sf) vec_ldu((unsigned char *) (src + i + 2 * ALTIVEC_LEN_FLOAT));
+                src_tmp4 = (v4sf) vec_ldu((unsigned char *) (src + i + 3 * ALTIVEC_LEN_FLOAT));
+            } else {
+                src_tmp1 = vec_ld(0, src + i);
+                src_tmp2 = vec_ld(0, src + i + ALTIVEC_LEN_FLOAT);
+                src_tmp3 = vec_ld(0, src + i + 2 * ALTIVEC_LEN_FLOAT);
+                src_tmp4 = vec_ld(0, src + i + 3 * ALTIVEC_LEN_FLOAT);
+            }
+            
+            v4sf tmp1 = vec_mul(src_tmp1, scale_fact_vec);
+            v4sf tmp2 = vec_mul(src_tmp2, scale_fact_vec);
+            v4sf tmp3 = vec_mul(src_tmp3, scale_fact_vec);
+            v4sf tmp4 = vec_mul(src_tmp4, scale_fact_vec);
+            v4si tmp1_int = vec_cts(tmp1, 0);
+            v4si tmp2_int = vec_cts(tmp2, 0);
+            v4si tmp3_int = vec_cts(tmp3, 0);
+            v4si tmp4_int = vec_cts(tmp4, 0);
+            v8ss tmp5 = vec_packs(tmp1_int, tmp2_int);
+            v8ss tmp6 = vec_packs(tmp3_int, tmp4_int);
+            v16u8 tmp7 = vec_packsu(tmp5, tmp6);
+            
+            if (unalign_dst) {
+              vec_stu(*(v16u8 *) &tmp7, (unsigned char *) (dst + i));
+            } else {
+              vec_st(tmp7, 0, dst + i);
+            }
+        }
     }
 
     if (rounding_mode == RndFinancial) {
@@ -3971,7 +4005,42 @@ static inline void convertFloat32ToI16_128(float *src, int16_t *dst, int len, in
             vec_st(tmp6, 0, dst + i + ALTIVEC_LEN_INT16);
         }
     } else {
-      //TODO
+        int unalign_src = (uintptr_t) (src) % ALTIVEC_LEN_BYTES;
+        int unalign_dst = (uintptr_t) (dst) % ALTIVEC_LEN_BYTES;
+
+        for (int i = 0; i < stop_len; i += 4 * ALTIVEC_LEN_FLOAT) {
+            v4sf src_tmp1, src_tmp2, src_tmp3, src_tmp4;
+            if (unalign_src) {
+                src_tmp1 = (v4sf) vec_ldu((unsigned char *) (src + i));
+                src_tmp2 = (v4sf) vec_ldu((unsigned char *) (src + i + ALTIVEC_LEN_FLOAT));
+                src_tmp3 = (v4sf) vec_ldu((unsigned char *) (src + i + 2 * ALTIVEC_LEN_FLOAT));
+                src_tmp4 = (v4sf) vec_ldu((unsigned char *) (src + i + 3 * ALTIVEC_LEN_FLOAT));
+            } else {
+                src_tmp1 = vec_ld(0, src + i);
+                src_tmp2 = vec_ld(0, src + i + ALTIVEC_LEN_FLOAT);
+                src_tmp3 = vec_ld(0, src + i + 2 * ALTIVEC_LEN_FLOAT);
+                src_tmp4 = vec_ld(0, src + i + 3 * ALTIVEC_LEN_FLOAT);
+            }
+            
+            v4sf tmp1 = vec_mul(src_tmp1, scale_fact_vec);
+            v4sf tmp2 = vec_mul(src_tmp2, scale_fact_vec);
+            v4sf tmp3 = vec_mul(src_tmp3, scale_fact_vec);
+            v4sf tmp4 = vec_mul(src_tmp4, scale_fact_vec);
+            v4si tmp1_int = vec_cts(tmp1, 0);
+            v4si tmp2_int = vec_cts(tmp2, 0);
+            v4si tmp3_int = vec_cts(tmp3, 0);
+            v4si tmp4_int = vec_cts(tmp4, 0);
+            v8ss tmp5 = vec_packs(tmp1_int, tmp2_int);
+            v8ss tmp6 = vec_packs(tmp3_int, tmp4_int);
+            
+            if (unalign_dst) {
+              vec_stu(*(v16u8 *) &tmp5, (unsigned char *) (dst + i));
+              vec_stu(*(v16u8 *) &tmp6, (unsigned char *) (dst + i + ALTIVEC_LEN_FLOAT));
+            } else {
+              vec_st(tmp5, 0, dst + i);
+              vec_st(tmp6, 0, dst + i + ALTIVEC_LEN_FLOAT);
+            }
+        }
     }
     
     if (rounding_mode == RndFinancial) {
@@ -4032,7 +4101,42 @@ static inline void convertFloat32ToU16_128(float *src, uint16_t *dst, int len, i
             vec_st(tmp6, 0, dst + i + ALTIVEC_LEN_INT16);
         }
     } else {
-      //TODO
+        int unalign_src = (uintptr_t) (src) % ALTIVEC_LEN_BYTES;
+        int unalign_dst = (uintptr_t) (dst) % ALTIVEC_LEN_BYTES;
+
+        for (int i = 0; i < stop_len; i += 4 * ALTIVEC_LEN_FLOAT) {
+            v4sf src_tmp1, src_tmp2, src_tmp3, src_tmp4;
+            if (unalign_src) {
+                src_tmp1 = (v4sf) vec_ldu((unsigned char *) (src + i));
+                src_tmp2 = (v4sf) vec_ldu((unsigned char *) (src + i + ALTIVEC_LEN_FLOAT));
+                src_tmp3 = (v4sf) vec_ldu((unsigned char *) (src + i + 2 * ALTIVEC_LEN_FLOAT));
+                src_tmp4 = (v4sf) vec_ldu((unsigned char *) (src + i + 3 * ALTIVEC_LEN_FLOAT));
+            } else {
+                src_tmp1 = vec_ld(0, src + i);
+                src_tmp2 = vec_ld(0, src + i + ALTIVEC_LEN_FLOAT);
+                src_tmp3 = vec_ld(0, src + i + 2 * ALTIVEC_LEN_FLOAT);
+                src_tmp4 = vec_ld(0, src + i + 3 * ALTIVEC_LEN_FLOAT);
+            }
+            
+            v4sf tmp1 = vec_mul(src_tmp1, scale_fact_vec);
+            v4sf tmp2 = vec_mul(src_tmp2, scale_fact_vec);
+            v4sf tmp3 = vec_mul(src_tmp3, scale_fact_vec);
+            v4sf tmp4 = vec_mul(src_tmp4, scale_fact_vec);
+            v4si tmp1_int = vec_cts(tmp1, 0);
+            v4si tmp2_int = vec_cts(tmp2, 0);
+            v4si tmp3_int = vec_cts(tmp3, 0);
+            v4si tmp4_int = vec_cts(tmp4, 0);
+            v8us tmp5 = vec_packsu(tmp1_int, tmp2_int);
+            v8us tmp6 = vec_packsu(tmp3_int, tmp4_int);
+            
+            if (unalign_dst) {
+              vec_stu(*(v16u8 *) &tmp5, (unsigned char *) (dst + i));
+              vec_stu(*(v16u8 *) &tmp6, (unsigned char *) (dst + i + ALTIVEC_LEN_FLOAT));
+            } else {
+              vec_st(tmp5, 0, dst + i);
+              vec_st(tmp6, 0, dst + i + ALTIVEC_LEN_FLOAT);
+            }
+        }
     }
 
     if (rounding_mode == RndFinancial) {
@@ -4051,25 +4155,24 @@ static inline void convertFloat32ToU16_128(float *src, uint16_t *dst, int len, i
     }
 }
 
-/*
 static inline void convertInt16ToFloat32_128(int16_t *src, float *dst, int len, int scale_factor)
 {
     int stop_len = len / (2 * ALTIVEC_LEN_FLOAT);
     stop_len *= (2 * ALTIVEC_LEN_FLOAT);
 
     float scale_fact_mult = 1.0f / (float) (1 << scale_factor);
     v4sf scale_fact_vec = vec_splats(scale_fact_mult);
-
+    v4ui shift = vec_splats((unsigned int)16);
+    
     if (areAligned2((uintptr_t) (src), (uintptr_t) (dst), ALTIVEC_LEN_BYTES)) {
         for (int i = 0; i < stop_len; i += 2 * ALTIVEC_LEN_FLOAT) {
             v8ss vec  = vec_ld(0, src + i); // loads 1 2 3 4 5 6 7 8 8
             v8ss low  = vec_mergeh(vec, vec); // low 1 1 2 2 3 3 4 4
             v8ss high = vec_mergel(vec, vec); // high 5 5 6 6 7 7 8 8
-            v4ui shift = vec_splats((unsigned int)16);
-            v16u8 lowu  = vec_sra(*(v16u8*)&low, *(v16u8*)&shift); // make low 1 -1 2 -1 3 -1 4 -4
-            v16u8 highu = vec_sra(*(v16u8*)&high, *(v16u8*)&shift); // make high 5 -1 6 -1 7 -1 8 -1
-            v4sf lowf  = vec_ctf(*(v4si*)&lowu, 0);
-            v4sf highf = vec_ctf(*(v4si*)&highu, 0);
+            v4si lows  = vec_sra(*(v4si*)&low, shift); // make low 1 -1 2 -1 3 -1 4 -4
+            v4si highs = vec_sra(*(v4si*)&high, shift); // make high 5 -1 6 -1 7 -1 8 -1
+            v4sf lowf  = vec_ctf(*(v4si*)&lows, 0);
+            v4sf highf = vec_ctf(*(v4si*)&highs, 0);
             
             // convert the vector to float and scale it
             v4sf floatlo = vec_mul(lowf, scale_fact_vec);
@@ -4079,12 +4182,40 @@ static inline void convertInt16ToFloat32_128(int16_t *src, float *dst, int len,
             vec_st(floathi, 0, dst + i + ALTIVEC_LEN_FLOAT);
         }
     } else {
-        //TODO
+        int unalign_src = (uintptr_t) (src) % ALTIVEC_LEN_BYTES;
+        int unalign_dst = (uintptr_t) (dst) % ALTIVEC_LEN_BYTES;
+
+        for (int i = 0; i < stop_len; i += 2 * ALTIVEC_LEN_FLOAT) {
+            v8ss vec;
+            if (unalign_src) {
+                vec = (v8ss) vec_ldu((unsigned char *) (src + i));
+            } else {
+                vec = vec_ld(0, src + i);
+            }
+            
+            v8ss low  = vec_mergeh(vec, vec); // low 1 1 2 2 3 3 4 4
+            v8ss high = vec_mergel(vec, vec); // high 5 5 6 6 7 7 8 8
+            v4si lows  = vec_sra(*(v4si*)&low, shift); // make low 1 -1 2 -1 3 -1 4 -4
+            v4si highs = vec_sra(*(v4si*)&high, shift); // make high 5 -1 6 -1 7 -1 8 -1
+            v4sf lowf  = vec_ctf(*(v4si*)&lows, 0);
+            v4sf highf = vec_ctf(*(v4si*)&highs, 0);
+            
+            // convert the vector to float and scale it
+            v4sf floatlo = vec_mul(lowf, scale_fact_vec);
+            v4sf floathi = vec_mul(highf, scale_fact_vec);
+            
+            if (unalign_dst) {
+              vec_stu(*(v16u8 *) &floatlo, (unsigned char *) (dst + i));
+              vec_stu(*(v16u8 *) &floathi, (unsigned char *) (dst + i + ALTIVEC_LEN_FLOAT));
+            } else {
+              vec_st(floatlo, 0, dst + i);
+              vec_st(floathi, 0, dst + i + ALTIVEC_LEN_FLOAT);
+            }
+        }
     }
 
     for (int i = stop_len; i < len; i++) {
         dst[i] = (float) src[i] * scale_fact_mult;
     }
 }
-*/
 #endif
diff --git a/simd_utils_altivec_int32.h b/simd_utils_altivec_int32.h
@@ -796,3 +796,61 @@ static inline void absdiff16s_128s(int16_t *src1, int16_t *src2, int16_t *dst, i
         dst[i] = abs(src1[i] - src2[i]);
     }
 }
+
+// Works with positive scale_factor (divides final value)
+static inline void sum16s32s128(int16_t *src, int len, int32_t *dst, int scale_factor)
+{
+    int stop_len = len / (4 * ALTIVEC_LEN_INT16);
+    stop_len *= (4 * ALTIVEC_LEN_INT16);
+
+    __attribute__((aligned(ALTIVEC_LEN_BYTES))) int32_t accumulate[ALTIVEC_LEN_INT32];
+    int32_t tmp_acc = 0;
+    int16_t scale = 1 << scale_factor;
+    v8ss one = vec_splats(1);
+    v4si vec_acc1 = *(v4si*)_ps_0;  // initialize the vector accumulator
+    v4si vec_acc2 = *(v4si*)_ps_0;   // initialize the vector accumulator
+
+    if (isAligned((uintptr_t) (src), ALTIVEC_LEN_BYTES)) {
+        for (int i = 0; i < stop_len; i += 4 * ALTIVEC_LEN_INT16) {
+            v8ss vec_src_tmp = vec_ld(0, src + i);
+            v8ss vec_src_tmp2 = vec_ld(0, src + i + ALTIVEC_LEN_INT16);
+            v8ss vec_src_tmp3 = vec_ld(0, src + i + 2 * ALTIVEC_LEN_INT16);
+            v8ss vec_src_tmp4 = vec_ld(0, src + i + 3 * ALTIVEC_LEN_INT16);
+            v4si vec_src_tmpi = vec_msum(vec_src_tmp, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp2i = vec_msum(vec_src_tmp2, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp3i = vec_msum(vec_src_tmp3, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp4i = vec_msum(vec_src_tmp4, one, *(v4si*)_ps_0);
+            vec_src_tmpi = vec_add(vec_src_tmpi, vec_src_tmp2i);
+            vec_src_tmp3i = vec_add(vec_src_tmp3i, vec_src_tmp4i);
+            vec_acc1 = vec_add(vec_src_tmpi, vec_acc1);
+            vec_acc2 = vec_add(vec_src_tmp3i, vec_acc2);
+        }
+    } else {
+        for (int i = 0; i < stop_len; i += 4 * ALTIVEC_LEN_INT16) {
+            v8ss vec_src_tmp  = (v8ss) vec_ldu((unsigned char *) (src + i));
+            v8ss vec_src_tmp2 = (v8ss) vec_ldu((unsigned char *) (src + i + ALTIVEC_LEN_INT16));
+            v8ss vec_src_tmp3 = (v8ss) vec_ldu((unsigned char *) (src + i + 2 * ALTIVEC_LEN_INT16));
+            v8ss vec_src_tmp4 = (v8ss) vec_ldu((unsigned char *) (src + i + 3 * ALTIVEC_LEN_INT16));
+            v4si vec_src_tmpi = vec_msum(vec_src_tmp, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp2i = vec_msum(vec_src_tmp2, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp3i = vec_msum(vec_src_tmp3, one, *(v4si*)_ps_0);
+            v4si vec_src_tmp4i = vec_msum(vec_src_tmp4, one, *(v4si*)_ps_0);
+            vec_src_tmpi = vec_add(vec_src_tmpi, vec_src_tmp2i);
+            vec_src_tmp3i = vec_add(vec_src_tmp3i, vec_src_tmp4i);
+            vec_acc1 = vec_add(vec_src_tmpi, vec_acc1);
+            vec_acc2 = vec_add(vec_src_tmp3i, vec_acc2);
+        }
+    }
+
+    vec_acc1 = vec_add(vec_acc1, vec_acc2);
+    vec_st(vec_acc1, 0, accumulate);
+
+    for (int i = stop_len; i < len; i++) {
+        tmp_acc += (int32_t) src[i];
+    }
+
+    tmp_acc = tmp_acc + accumulate[0] + accumulate[1] + accumulate[2] + accumulate[3];
+
+    tmp_acc /= scale;
+    *dst = tmp_acc;
+}
diff --git a/simd_utils_constants.h b/simd_utils_constants.h
@@ -221,10 +221,20 @@ typedef int32x4_t v4si;        // vector of 4 uint32
 typedef float32x4x2_t v4sfx2;
 typedef float64x2x2_t v2sdx2;
 
+typedef int8x16_t v8ss;
+typedef uint8x16_t v8us;
+typedef uint16x8_t v16u8;
+typedef uint16x8_t v16s8;
+
 #else
 
 typedef __m128 v4sf;   // vector of 4 float (sse1)
 typedef __m128i v4si;  // vector of 4 int (sse2)
+typedef __m128i v8ss;
+typedef __m128i v8us;
+typedef __m128i v16u8;
+typedef __m128i v16s8;
+
 typedef struct {
     v4sf val[2];
 } v4sfx2;
@@ -1330,6 +1340,31 @@ static inline void print4x(v4sf v)
     //printf("[%0.3f, %0.3f, %0.3f, %0.3f]", p[0], p[1], p[2], p[3]);
 }
 
+static inline void print8xs(v8ss v)
+{
+    short *p = (short *) &v;
+#ifndef __SSE2__
+#ifndef ALTIVEC
+    _mm_empty();
+#endif
+#endif
+    printf("[%04x, %04x, %04x, %04x, %04x, %04x, %04x, %04x]",\
+              p[0], p[1], p[2], p[3], p[4], p[5], p[6], p[7]);
+}
+
+static inline void print16xu(v16u8 v)
+{
+    uint8_t *p = (uint8_t *) &v;
+#ifndef __SSE2__
+#ifndef ALTIVEC
+    _mm_empty();
+#endif
+#endif
+    printf("[%02x, %02x, %02x, %02x, %02x, %02x, %02x, %02x,%02x, %02x, %02x, %02x, %02x, %02x, %02x, %02x]",\
+            p[0], p[1], p[2], p[3], p[4], p[5], p[6], p[7],\
+            p[8], p[9], p[10], p[11], p[12], p[13], p[14], p[15]);
+}
+
 static inline void print4i(v4si v)
 {
     int *p = (int *) &v;
diff --git a/simd_utils_sse_int32.h b/simd_utils_sse_int32.h
@@ -400,7 +400,7 @@ static inline void sum16s32s128(int16_t *src, int len, int32_t *dst, int scale_f
     int stop_len = len / (4 * SSE_LEN_INT16);
     stop_len *= (4 * SSE_LEN_INT16);
 
-    __attribute__((aligned(SSE_LEN_BYTES))) int32_t accumulate[SSE_LEN_INT32] = {0, 0, 0, 0};
+    __attribute__((aligned(SSE_LEN_BYTES))) int32_t accumulate[SSE_LEN_INT32];
     int32_t tmp_acc = 0;
     int16_t scale = 1 << scale_factor;
     v4si one = _mm_set1_epi16(1);