Fix vreduce for small width vector operations (#7)

DingliZhang · web-flow · commit f4b834aabc7c · 2023-02-15T14:32:29.000+08:00
diff --git a/src/hotspot/cpu/riscv/c2_MacroAssembler_riscv.cpp b/src/hotspot/cpu/riscv/c2_MacroAssembler_riscv.cpp
@@ -1635,11 +1635,16 @@ void C2_MacroAssembler::minmax_FD_v(VectorRegister dst, VectorRegister src1, Vec
 void C2_MacroAssembler::reduce_minmax_FD_v(FloatRegister dst,
                                            FloatRegister src1, VectorRegister src2,
                                            VectorRegister tmp1, VectorRegister tmp2,
-                                           bool is_double, bool is_min) {
+                                           bool is_double, bool is_min, int length_in_bytes) {
   assert_different_registers(src2, tmp1, tmp2);
 
   Label L_done, L_NaN;
-  vsetvli(t0, x0, is_double ? Assembler::e64 : Assembler::e32);
+  if (length_in_bytes != MaxVectorSize) {
+    mv(t0, length_in_bytes / type2aelembytes(is_double ? T_DOUBLE : T_FLOAT));
+    vsetvli(t0, t0, is_double ? Assembler::e64 : Assembler::e32);
+  } else {
+    vsetvli(t0, x0, is_double ? Assembler::e64 : Assembler::e32);
+  }
   vfmv_s_f(tmp2, src1);
 
   is_min ? vfredmin_vs(tmp1, src2, tmp2)
@@ -1672,11 +1677,16 @@ bool C2_MacroAssembler::in_scratch_emit_size() {
 
 void C2_MacroAssembler::rvv_reduce_integral(Register dst, VectorRegister tmp,
                                             Register src1, VectorRegister src2,
-                                            BasicType bt, int opc) {
+                                            BasicType bt, int opc, int length_in_bytes) {
   assert(bt == T_BYTE || bt == T_SHORT || bt == T_INT || bt == T_LONG, "unsupported element type");
 
   Assembler::SEW sew = Assembler::elemtype_to_sew(bt);
-  vsetvli(t0, x0, sew);
+  if (length_in_bytes != MaxVectorSize) {
+    mv(t0, length_in_bytes / type2aelembytes(bt));
+    vsetvli(t0, t0, sew);
+  } else {
+    vsetvli(t0, x0, sew);
+  }
 
   vmv_s_x(tmp, src1);
 
diff --git a/src/hotspot/cpu/riscv/c2_MacroAssembler_riscv.hpp b/src/hotspot/cpu/riscv/c2_MacroAssembler_riscv.hpp
@@ -190,10 +190,10 @@
  void reduce_minmax_FD_v(FloatRegister dst,
                          FloatRegister src1, VectorRegister src2,
                          VectorRegister tmp1, VectorRegister tmp2,
-                         bool is_double, bool is_min);
+                         bool is_double, bool is_min, int length_in_bytes);
 
  void rvv_reduce_integral(Register dst, VectorRegister tmp,
                           Register src1, VectorRegister src2,
-                          BasicType bt, int opc);
+                          BasicType bt, int opc, int length_in_bytes);
 
 #endif // CPU_RISCV_C2_MACROASSEMBLER_RISCV_HPP
diff --git a/src/hotspot/cpu/riscv/riscv.ad b/src/hotspot/cpu/riscv/riscv.ad
@@ -1936,14 +1936,12 @@ const int Matcher::vector_width_in_bytes(BasicType bt) {
 const int Matcher::max_vector_size(const BasicType bt) {
   return vector_width_in_bytes(bt) / type2aelembytes(bt);
 }
+
 const int Matcher::min_vector_size(const BasicType bt) {
   int max_size = max_vector_size(bt);
   // Limit the min vector size to 8 bytes.
   int size = 8 / type2aelembytes(bt);
-  if (bt == T_BYTE) {
-    // To support vector api shuffle/rearrange.
-    size = 4;
-  } else if (bt == T_BOOLEAN) {
+  if (bt == T_BOOLEAN) {
     // To support vector api load/store mask.
     size = 2;
   }
diff --git a/src/hotspot/cpu/riscv/riscv_v.ad b/src/hotspot/cpu/riscv/riscv_v.ad
@@ -828,7 +828,8 @@ instruct reduce_andI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -844,7 +845,8 @@ instruct reduce_andL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -864,7 +866,8 @@ instruct reduce_orI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -880,7 +883,8 @@ instruct reduce_orL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -900,7 +904,8 @@ instruct reduce_xorI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -916,7 +921,8 @@ instruct reduce_xorL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -936,7 +942,8 @@ instruct reduce_addI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -952,7 +959,8 @@ instruct reduce_addL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -965,7 +973,13 @@ instruct reduce_addF(fRegF src1_dst, vReg src2, vReg tmp) %{
             "vfredosum.vs $tmp, $src2, $tmp\n\t"
             "vfmv.f.s $src1_dst, $tmp" %}
   ins_encode %{
-    __ vsetvli(t0, x0, Assembler::e32);
+    int length_in_bytes = Matcher::vector_length_in_bytes(this, $src2);
+    if (length_in_bytes != MaxVectorSize) {
+      __ mv(t0, length_in_bytes / type2aelembytes(T_FLOAT));
+      __ vsetvli(t0, t0, Assembler::e32);
+    } else {
+      __ vsetvli(t0, x0, Assembler::e32);
+    }
     __ vfmv_s_f(as_VectorRegister($tmp$$reg), $src1_dst$$FloatRegister);
     __ vfredosum_vs(as_VectorRegister($tmp$$reg), as_VectorRegister($src2$$reg),
                     as_VectorRegister($tmp$$reg));
@@ -982,7 +996,13 @@ instruct reduce_addD(fRegD src1_dst, vReg src2, vReg tmp) %{
             "vfredosum.vs $tmp, $src2, $tmp\n\t"
             "vfmv.f.s $src1_dst, $tmp" %}
   ins_encode %{
-    __ vsetvli(t0, x0, Assembler::e64);
+    int length_in_bytes = Matcher::vector_length_in_bytes(this, $src2);
+    if (length_in_bytes != MaxVectorSize) {
+      __ mv(t0, length_in_bytes / type2aelembytes(T_DOUBLE));
+      __ vsetvli(t0, t0, Assembler::e64);
+    } else {
+      __ vsetvli(t0, x0, Assembler::e64);
+    }
     __ vfmv_s_f(as_VectorRegister($tmp$$reg), $src1_dst$$FloatRegister);
     __ vfredosum_vs(as_VectorRegister($tmp$$reg), as_VectorRegister($src2$$reg),
                     as_VectorRegister($tmp$$reg));
@@ -1004,7 +1024,8 @@ instruct vreduce_maxI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1018,7 +1039,8 @@ instruct vreduce_maxL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1036,7 +1058,8 @@ instruct vreduce_minI(iRegINoSp dst, iRegIorL2I src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1050,7 +1073,8 @@ instruct vreduce_minL(iRegLNoSp dst, iRegL src1, vReg src2, vReg tmp) %{
   ins_encode %{
     BasicType bt = Matcher::vector_element_basic_type(this, $src2);
     __ rvv_reduce_integral($dst$$Register, as_VectorRegister($tmp$$reg),
-                           $src1$$Register, as_VectorRegister($src2$$reg), bt, this->ideal_Opcode());
+                           $src1$$Register, as_VectorRegister($src2$$reg), bt,
+                           this->ideal_Opcode(), Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1067,7 +1091,7 @@ instruct vreduce_maxF(fRegF dst, fRegF src1, vReg src2, vReg tmp1, vReg tmp2) %{
     __ reduce_minmax_FD_v($dst$$FloatRegister,
                           $src1$$FloatRegister, as_VectorRegister($src2$$reg),
                           as_VectorRegister($tmp1$$reg), as_VectorRegister($tmp2$$reg),
-                          false /* is_double */, false /* is_min */);
+                          false /* is_double */, false /* is_min */, Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1082,7 +1106,7 @@ instruct vreduce_maxD(fRegD dst, fRegD src1, vReg src2, vReg tmp1, vReg tmp2) %{
     __ reduce_minmax_FD_v($dst$$FloatRegister,
                           $src1$$FloatRegister, as_VectorRegister($src2$$reg),
                           as_VectorRegister($tmp1$$reg), as_VectorRegister($tmp2$$reg),
-                          true /* is_double */, false /* is_min */);
+                          true /* is_double */, false /* is_min */, Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1099,7 +1123,7 @@ instruct vreduce_minF(fRegF dst, fRegF src1, vReg src2, vReg tmp1, vReg tmp2) %{
     __ reduce_minmax_FD_v($dst$$FloatRegister,
                           $src1$$FloatRegister, as_VectorRegister($src2$$reg),
                           as_VectorRegister($tmp1$$reg), as_VectorRegister($tmp2$$reg),
-                          false /* is_double */, true /* is_min */);
+                          false /* is_double */, true /* is_min */, Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}
@@ -1114,7 +1138,7 @@ instruct vreduce_minD(fRegD dst, fRegD src1, vReg src2, vReg tmp1, vReg tmp2) %{
     __ reduce_minmax_FD_v($dst$$FloatRegister,
                           $src1$$FloatRegister, as_VectorRegister($src2$$reg),
                           as_VectorRegister($tmp1$$reg), as_VectorRegister($tmp2$$reg),
-                          true /* is_double */, true /* is_min */);
+                          true /* is_double */, true /* is_min */, Matcher::vector_length_in_bytes(this, $src2));
   %}
   ins_pipe(pipe_slow);
 %}