added RISCV absdiff16s_vec

JishinMaster · JishinMaster · commit acda5c9054c6 · 2023-01-14T10:03:56.000+01:00
diff --git a/README.md b/README.md
@@ -200,7 +200,7 @@ The following table is a work in progress, "?" means there is not yet an impleme
 | thresholdX_ltval_gtval_s (a)                          | threshold_ltval_gtval_s_C   | ippsThreshold_LTValGTVal_32s   | threshold_ltval_gtval_s_vec   |
 | copyXs  (a)                                           | copys_C                     | ippsCopy_32s                   | copys_vec                     |
 | ?                                                     | ?                           | ?                              | mulcs_vec                     |
-| absdiff16s_Xs (a)                                     | absdiff16s_c                | ?                              | ?                             |
+| absdiff16s_Xs (a)                                     | absdiff16s_c                | ?                              | absdiff16s_vec                |
 | sum16s32sX (a)                                        | sum16s32s_C                 | ippsSum_16s32s_Sfs             | sum16s32s_vec                 |
 | ?                                                     | ors_c                       | ippsOr_32u                     | ?                             |
 | ?                                                     | ands_c                      | ippsAnd_32u                    | ?                             |
diff --git a/simd_test.c b/simd_test.c
@@ -11197,6 +11197,23 @@ for (int i = 0; i < len; i++){
     printf("absdiff16s_512s %d %lf\n", len, elapsed);
     l2_err_i16(inout_sref, inout_s3, len);
 #endif
+
+#ifdef RISCV
+    clock_gettime(CLOCK_REALTIME, &start);
+    absdiff16s_vec(inout_s1, inout_s2, inout_s3, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = (stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3;
+    printf("absdiff16s_vec %d %lf\n", len, elapsed);
+
+    clock_gettime(CLOCK_REALTIME, &start);
+    for (l = 0; l < loop; l++)
+        absdiff16s_vec(inout_s1, inout_s2, inout_s3, len);
+    clock_gettime(CLOCK_REALTIME, &stop);
+    elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
+    printf("absdiff16s_vec %d %lf\n", len, elapsed);
+    l2_err_i16(inout_sref, inout_s3, len);
+#endif
+
     printf("\n");
     /////////////////////////////////////////////////////////// POWERSPECT_S16_INTERLEAVED //////////////////////////////////////////////////////////////////////////////
     printf("POWERSPECT_S16_INTERLEAVED\n");
diff --git a/simd_utils_constants.h b/simd_utils_constants.h
@@ -268,7 +268,13 @@ vfnmsub.vf vd, rs1, vs2, vm
 #define VLOAD1_SHORT vmv_v_x_i16m4
 #define VSTORE_SHORT vse16_v_i16m4
 #define VADD_SHORT vadd_vv_i16m4
+#define VSUB_SHORT vsub_vv_i16m4
 #define VREDSUMW_SHORT vwredsum_vs_i16m4_i32m1
+#define VGT_SHORT_BOOL vmsgt_vv_i16m4_b4
+#define VMERGE_SHORT vmerge_vvm_i16m4
+
+//// BOOL Double
+#define V_ELT_BOOLD vbool4_t
 
 //// BOOL
 #define V_ELT_BOOL vbool8_t
diff --git a/simd_utils_riscv_int.h b/simd_utils_riscv_int.h
@@ -355,3 +355,25 @@ static inline void sum16s32s_vec(int16_t *src, int len, int32_t *dst, int scale_
     vse32_v_i32m1(dst, tmp, 1);
     *dst /= scale;
 }
+
+static inline void absdiff16s_vec(int16_t *src1, int16_t *src2, int16_t *dst, int len)
+{
+    size_t i;
+    int16_t *src1_tmp = src1;
+    int16_t *src2_tmp = src2;
+    int16_t *dst_tmp = dst;
+    for (; (i = VSETVL32(len)) > 0; len -= i) {
+        V_ELT_SHORT va, vb, vc;
+        va = VLOAD_SHORT(src1_tmp, i);
+        vb = VLOAD_SHORT(src2_tmp, i);
+
+        V_ELT_BOOLD cmp = VGT_SHORT_BOOL(va, vb, i);
+        V_ELT_SHORT difab = VSUB_SHORT(va, vb, i);
+        V_ELT_SHORT difba = VSUB_SHORT(vb, va, i);
+        vc = VMERGE_SHORT(cmp, difba, difab, i);
+        VSTORE_SHORT(dst_tmp, vc, i);
+        src1_tmp += i;
+        src2_tmp += i;
+        dst_tmp += i;
+    }
+}
diff --git a/simd_utils_sse_int32.h b/simd_utils_sse_int32.h
@@ -326,9 +326,14 @@ static inline __m128i _mm_absdiff_epi32(__m128i a, __m128i b)
     cmp = _mm_cmpgt_epi32(a, b);
     difab = _mm_sub_epi32(a, b);
     difba = _mm_sub_epi32(b, a);
+#if 1 // should be faster
+    return _mm_blendv_epi8(difba, difab, cmp);
+#else
     difab = _mm_and_si128(cmp, difab);
     difba = _mm_andnot_si128(cmp, difba);
     return _mm_or_si128(difab, difba);
+#endif
+
 #else
     return vreinterpretq_m128i_s32(vabdq_s32(vreinterpretq_s32_m128i(a), vreinterpretq_s32_m128i(b)));
 #endif
@@ -341,9 +346,14 @@ static inline __m128i _mm_absdiff_epi8(__m128i a, __m128i b)
     cmp = _mm_cmpgt_epi8(a, b);
     difab = _mm_sub_epi8(a, b);
     difba = _mm_sub_epi8(b, a);
+#if 1 // should be faster
+    return _mm_blendv_epi8(difba, difab, cmp);
+#else
     difab = _mm_and_si128(cmp, difab);
     difba = _mm_andnot_si128(cmp, difba);
     return _mm_or_si128(difab, difba);
+#endif
+
 #else
     return vreinterpretq_m128i_s8(vabdq_s8(vreinterpretq_s8_m128i(a), vreinterpretq_s8_m128i(b)));
 #endif