8282528: AArch64: Incorrect replicate2L_zero rule

Eric Liu · Eric Liu · commit a52019907cf0 · 2022-03-24T09:12:20.000Z
This patch fixes the wrong matching rule of replicate2L_zero. It was matched "ReplicateI" by mistake so that long immediates(not only zero) had to be moved to register first and matched to replicate2L finally. To fix this trivial bug, this patch fixes the typo and extends the rule of replicate2L_zero to replicate2L_imm, which now supports all possible long immediate values. The final code changes are shown as below: replicate2L_imm: mov x13, #0xff movk x13, #0xff, lsl openjdk#16 movk x13, #0xff, lsl openjdk#32 dup v16.2d, x13 => movi v16.2d, #0xff00ff00ff [Test] test/jdk/jdk/incubator/vector, test/hotspot/jtreg/compiler/vectorapi passed without failure. Change-Id: Ieac92820dea560239a968de3d7430003f01726bd
diff --git a/src/hotspot/cpu/aarch64/aarch64_neon.ad b/src/hotspot/cpu/aarch64/aarch64_neon.ad
@@ -3255,16 +3255,14 @@ instruct replicate2L(vecX dst, iRegL src)
   ins_pipe(vdup_reg_reg128);
 %}
 
-instruct replicate2L_zero(vecX dst, immI0 zero)
+instruct replicate2L_imm(vecX dst, immL con)
 %{
   predicate(UseSVE == 0 && n->as_Vector()->length() == 2);
-  match(Set dst (ReplicateI zero));
+  match(Set dst (ReplicateL con));
   ins_cost(INSN_COST);
-  format %{ "movi  $dst, $zero\t# vector (4I)" %}
+  format %{ "movi  $dst, $con\t# vector (2L)" %}
   ins_encode %{
-    __ eor(as_FloatRegister($dst$$reg), __ T16B,
-           as_FloatRegister($dst$$reg),
-           as_FloatRegister($dst$$reg));
+    __ mov(as_FloatRegister($dst$$reg), __ T2D, $con$$constant);
   %}
   ins_pipe(vmovi_reg_imm128);
 %}
diff --git a/src/hotspot/cpu/aarch64/aarch64_neon_ad.m4 b/src/hotspot/cpu/aarch64/aarch64_neon_ad.m4
@@ -1553,55 +1553,50 @@ VFABD(fabd, fabd, 4, F, X, S, 128)
 VFABD(fabd, fabd, 2, D, X, D, 128)
 dnl
 define(`VREPLICATE', `
-instruct replicate$3$4$5`'(vec$6 dst, $7 ifelse($7, immI0, zero, $7, immI, con, src))
-%{
-  predicate(UseSVE == 0 && ifelse($8, `',
-                                  n->as_Vector()->length() == $3,
-                                  (n->as_Vector()->length() == $3 ||`
-                            'n->as_Vector()->length() == $8)));
-  match(Set dst (Replicate`'ifelse($7, immI0, I, $4) ifelse($7, immI0, zero, $7, immI, con, $7, zero, I, src)));
-  ins_cost(INSN_COST);
-  format %{ "$1  $dst, $ifelse($7, immI0, zero, $7, immI, con, src)`\t# vector ('ifelse($4$7, SimmI, $3H, $2, eor, 4I, $3$4)`)"' %}
-  ins_encode %{
-    __ $2(as_FloatRegister($dst$$reg), __ ifelse(
-            $2, eor, T16B, T$3`'$9),ifelse(
-            `$4 $7', `B immI', ` '$con$$constant & 0xff,
-            `$4 $7', `S immI', ` '$con$$constant & 0xffff,
-            `$4 $7', `I immI', ` '$con$$constant,
-            `$2', eor,`
-           as_FloatRegister($dst$$reg),
-           as_FloatRegister($dst$$reg)',
-            `$7', vRegF,`
+instruct replicate$2$3$4`'(vec$5 dst, $6 ifelse($4, _imm, con, src))
+%{
+  predicate(UseSVE == 0 && ifelse($7, `',
+                                  n->as_Vector()->length() == $2,
+                                  (n->as_Vector()->length() == $2 ||`
+                            'n->as_Vector()->length() == $7)));
+  match(Set dst (Replicate$3 ifelse($4, _imm, con, src)));
+  ins_cost(INSN_COST);
+  format %{ "ifelse($1, mov, movi, $1)  $dst, $ifelse($4, _imm, con, src)`\t# vector ('ifelse($3$4, S_imm, $2H, $2$3)`)"' %}
+  ins_encode %{
+    __ $1(as_FloatRegister($dst$$reg), __ T$2$8,ifelse(
+            `$3 $4', `B _imm', ` '$con$$constant & 0xff,
+            `$3 $4', `S _imm', ` '$con$$constant & 0xffff,
+            `$3 $4', `I _imm', ` '$con$$constant,
+            `$3 $4', `L _imm', ` '$con$$constant,
+            `$6', vRegF,`
            as_FloatRegister($src$$reg)',
-            `$7', vRegD,`
+            `$6', vRegD,`
            as_FloatRegister($src$$reg)',
            ` 'as_Register($src$$reg)));
   %}
-  ins_pipe(ifelse($7, immI0, v$1_reg_imm,
-                  $7, immI,  v$1_reg_imm,
-                  $7, iRegIorL2I, v$1_reg_reg,
-                  $7, zero, vmovi_reg_imm,
-                  $7, iRegL, vdup_reg_reg,
-                  $4, F, vdup_reg_freg, vdup_reg_dreg)`'ifelse($6, X, 128, 64));
-%}')dnl
-dnl        $1    $2    $3  $4 $5     $6 $7          $8 $9
-VREPLICATE(dup,  dup,  8,  B, ,      D, iRegIorL2I, 4, B)
-VREPLICATE(dup,  dup,  16, B, ,      X, iRegIorL2I,  , B)
-VREPLICATE(movi, mov,  8,  B, _imm,  D, immI,       4, B)
-VREPLICATE(movi, mov,  16, B, _imm,  X, immI,        , B)
-VREPLICATE(dup,  dup,  4,  S, ,      D, iRegIorL2I, 2, H)
-VREPLICATE(dup,  dup,  8,  S, ,      X, iRegIorL2I,  , H)
-VREPLICATE(movi, mov,  4,  S, _imm,  D, immI,       2, H)
-VREPLICATE(movi, mov,  8,  S,  _imm, X, immI,        , H)
-VREPLICATE(dup,  dup,  2,  I, ,      D, iRegIorL2I, ,  S)
-VREPLICATE(dup,  dup,  4,  I, ,      X, iRegIorL2I, ,  S)
-VREPLICATE(movi, mov,  2,  I, _imm,  D, immI,       ,  S)
-VREPLICATE(movi, mov,  4,  I,  _imm, X, immI,       ,  S)
-VREPLICATE(dup,  dup,  2,  L, ,      X, iRegL,      ,  D)
-VREPLICATE(movi, eor,  2,  L, _zero, X, immI0,      ,  D)
-VREPLICATE(dup,  dup,  2,  F, ,      D, vRegF,      ,  S)
-VREPLICATE(dup,  dup,  4,  F, ,      X, vRegF,      ,  S)
-VREPLICATE(dup,  dup,  2,  D, ,      X, vRegD,      ,  D)
+  ins_pipe(ifelse($4, _imm,  vmovi_reg_imm,
+                  $6, iRegIorL2I, v$1_reg_reg,
+                  $6, iRegL, vdup_reg_reg,
+                  $3, F, vdup_reg_freg, vdup_reg_dreg)`'ifelse($5, X, 128, 64));
+%}')dnl
+dnl        $1   $2  $3 $4     $5 $6          $7 $8
+VREPLICATE(dup, 8,  B, ,      D, iRegIorL2I, 4, B)
+VREPLICATE(dup, 16, B, ,      X, iRegIorL2I,  , B)
+VREPLICATE(mov, 8,  B, _imm,  D, immI,       4, B)
+VREPLICATE(mov, 16, B, _imm,  X, immI,        , B)
+VREPLICATE(dup, 4,  S, ,      D, iRegIorL2I, 2, H)
+VREPLICATE(dup, 8,  S, ,      X, iRegIorL2I,  , H)
+VREPLICATE(mov, 4,  S, _imm,  D, immI,       2, H)
+VREPLICATE(mov, 8,  S, _imm,  X, immI,        , H)
+VREPLICATE(dup, 2,  I, ,      D, iRegIorL2I,  , S)
+VREPLICATE(dup, 4,  I, ,      X, iRegIorL2I,  , S)
+VREPLICATE(mov, 2,  I, _imm,  D, immI,        , S)
+VREPLICATE(mov, 4,  I, _imm,  X, immI,        , S)
+VREPLICATE(dup, 2,  L, ,      X, iRegL,       , D)
+VREPLICATE(mov, 2,  L, _imm,  X, immL,        , D)
+VREPLICATE(dup, 2,  F, ,      D, vRegF,       , S)
+VREPLICATE(dup, 4,  F, ,      X, vRegF,       , S)
+VREPLICATE(dup, 2,  D, ,      X, vRegD,       , D)
 dnl
 
 // ====================REDUCTION ARITHMETIC====================================
diff --git a/src/hotspot/cpu/aarch64/macroAssembler_aarch64.cpp b/src/hotspot/cpu/aarch64/macroAssembler_aarch64.cpp
@@ -1332,16 +1332,51 @@ void MacroAssembler::movptr(Register r, uintptr_t imm64) {
 }
 
 // Macro to mov replicated immediate to vector register.
-//  Vd will get the following values for different arrangements in T
-//   imm32 == hex 000000gh  T8B:  Vd = ghghghghghghghgh
-//   imm32 == hex 000000gh  T16B: Vd = ghghghghghghghghghghghghghghghgh
-//   imm32 == hex 0000efgh  T4H:  Vd = efghefghefghefgh
-//   imm32 == hex 0000efgh  T8H:  Vd = efghefghefghefghefghefghefghefgh
-//   imm32 == hex abcdefgh  T2S:  Vd = abcdefghabcdefgh
-//   imm32 == hex abcdefgh  T4S:  Vd = abcdefghabcdefghabcdefghabcdefgh
-//   T1D/T2D: invalid
-void MacroAssembler::mov(FloatRegister Vd, SIMD_Arrangement T, uint32_t imm32) {
-  assert(T != T1D && T != T2D, "invalid arrangement");
+// imm64: only the lower 8/16/32 bits are considered for B/H/S type. That is,
+//        the upper 56/48/32 bits must be zeros for B/H/S type.
+// Vd will get the following values for different arrangements in T
+//   imm64 == hex 000000gh  T8B:  Vd = ghghghghghghghgh
+//   imm64 == hex 000000gh  T16B: Vd = ghghghghghghghghghghghghghghghgh
+//   imm64 == hex 0000efgh  T4H:  Vd = efghefghefghefgh
+//   imm64 == hex 0000efgh  T8H:  Vd = efghefghefghefghefghefghefghefgh
+//   imm64 == hex abcdefgh  T2S:  Vd = abcdefghabcdefgh
+//   imm64 == hex abcdefgh  T4S:  Vd = abcdefghabcdefghabcdefghabcdefgh
+//   imm64 == hex abcdefgh  T1D:  Vd = 00000000abcdefgh
+//   imm64 == hex abcdefgh  T2D:  Vd = 00000000abcdefgh00000000abcdefgh
+// Clobbers rscratch1
+void MacroAssembler::mov(FloatRegister Vd, SIMD_Arrangement T, uint64_t imm64) {
+  if (T == T1D || T == T2D) {
+    // To encode into movi, the 64-bit imm must be in the form of
+    // 'aaaaaaaabbbbbbbbccccccccddddddddeeeeeeeeffffffffgggggggghhhhhhhh'
+    // and encoded in "a:b:c:d:e:f:g:h".
+    bool can_encode = true;
+    uint64_t tmp = imm64;
+    uint64_t one_byte = 0;
+    for (int i = 0; i < 8; i++) {
+      one_byte = tmp & 0xFFULL;
+      if (one_byte != 0xFFULL && one_byte != 0) {
+        can_encode = false;
+        break;
+      }
+      tmp = tmp >> 8;
+    }
+
+    if(can_encode) {
+      uint64_t imm = imm64;
+      imm &= 0x0101010101010101ULL;
+      imm |= (imm >> 7);
+      imm |= (imm >> 14);
+      imm |= (imm >> 28);
+      imm &= 0xFFULL;
+      movi(Vd, T, imm);
+    } else {
+      mov(rscratch1, imm64);
+      dup(Vd, T, rscratch1);
+    }
+    return;
+  }
+
+  uint32_t imm32 = imm64 & 0xFFFFFFFFULL;
   if (T == T8B || T == T16B) {
     assert((imm32 & ~0xff) == 0, "extraneous bits in unsigned imm32 (T8B/T16B)");
     movi(Vd, T, imm32 & 0xff, 0);
diff --git a/src/hotspot/cpu/aarch64/macroAssembler_aarch64.hpp b/src/hotspot/cpu/aarch64/macroAssembler_aarch64.hpp
@@ -508,7 +508,7 @@ class MacroAssembler: public Assembler {
 
   void movptr(Register r, uintptr_t imm64);
 
-  void mov(FloatRegister Vd, SIMD_Arrangement T, uint32_t imm32);
+  void mov(FloatRegister Vd, SIMD_Arrangement T, uint64_t imm64);
 
   void mov(FloatRegister Vd, SIMD_Arrangement T, FloatRegister Vn) {
     orr(Vd, T, Vn, Vn);
diff --git a/test/hotspot/jtreg/compiler/vectorapi/VectorReplicateLongSpecialImmTest.java b/test/hotspot/jtreg/compiler/vectorapi/VectorReplicateLongSpecialImmTest.java