accelerate Vector.Dot for all base types

saucecontrol · saucecontrol · commit 3562aeaaf4a8 · 2025-01-27T08:53:58.000-08:00
diff --git a/src/coreclr/jit/gentree.cpp b/src/coreclr/jit/gentree.cpp
@@ -21423,45 +21423,84 @@ GenTree* Compiler::gtNewSimdBinOpNode(
             }
             else if (varTypeIsLong(simdBaseType))
             {
-                assert((simdSize == 16) || (simdSize == 32) || (simdSize == 64));
+                if ((simdSize == 32) || compOpportunisticallyDependsOn(InstructionSet_SSE41))
+                {
+                    assert((simdSize == 16) || compIsaSupportedDebugOnly(InstructionSet_AVX2));
 
-                assert(((simdSize == 16) && compOpportunisticallyDependsOn(InstructionSet_SSE41)) ||
-                       ((simdSize == 32) && compOpportunisticallyDependsOn(InstructionSet_AVX2)));
+                    // Make op1 and op2 multi-use:
+                    GenTree* op1Dup = fgMakeMultiUse(&op1);
+                    GenTree* op2Dup = fgMakeMultiUse(&op2);
 
-                // Make op1 and op2 multi-use:
-                GenTree* op1Dup = fgMakeMultiUse(&op1);
-                GenTree* op2Dup = fgMakeMultiUse(&op2);
+                    const bool is256 = simdSize == 32;
+
+                    // Vector256<ulong> tmp0 = Avx2.Multiply(left, right);
+                    GenTreeHWIntrinsic* tmp0 =
+                        gtNewSimdHWIntrinsicNode(type, op1, op2, is256 ? NI_AVX2_Multiply : NI_SSE2_Multiply,
+                                                 CORINFO_TYPE_ULONG, simdSize);
+
+                    // Vector256<uint> tmp1 = Avx2.Shuffle(right.AsUInt32(), ZWXY);
+                    GenTree*            shuffleMask = gtNewIconNode(SHUFFLE_ZWXY, TYP_INT);
+                    GenTreeHWIntrinsic* tmp1 =
+                        gtNewSimdHWIntrinsicNode(type, op2Dup, shuffleMask, is256 ? NI_AVX2_Shuffle : NI_SSE2_Shuffle,
+                                                 CORINFO_TYPE_UINT, simdSize);
+
+                    // Vector256<uint> tmp2 = Avx2.MultiplyLow(left.AsUInt32(), tmp1);
+                    GenTree* tmp2 = gtNewSimdBinOpNode(GT_MUL, type, op1Dup, tmp1, CORINFO_TYPE_UINT, simdSize);
 
-                const bool is256 = simdSize == 32;
+                    // Vector256<int> tmp3 = Avx2.HorizontalAdd(tmp2.AsInt32(), Vector256<int>.Zero);
+                    GenTreeHWIntrinsic* tmp3 =
+                        gtNewSimdHWIntrinsicNode(type, tmp2, gtNewZeroConNode(type),
+                                                 is256 ? NI_AVX2_HorizontalAdd : NI_SSSE3_HorizontalAdd,
+                                                 CORINFO_TYPE_UINT, simdSize);
 
-                // Vector256<ulong> tmp0 = Avx2.Multiply(left, right);
-                GenTreeHWIntrinsic* tmp0 =
-                    gtNewSimdHWIntrinsicNode(type, op1, op2, is256 ? NI_AVX2_Multiply : NI_SSE2_Multiply,
-                                             CORINFO_TYPE_ULONG, simdSize);
+                    // Vector256<int> tmp4 = Avx2.Shuffle(tmp3, YWXW);
+                    shuffleMask = gtNewIconNode(SHUFFLE_YWXW, TYP_INT);
+                    GenTreeHWIntrinsic* tmp4 =
+                        gtNewSimdHWIntrinsicNode(type, tmp3, shuffleMask, is256 ? NI_AVX2_Shuffle : NI_SSE2_Shuffle,
+                                                 CORINFO_TYPE_UINT, simdSize);
 
-                // Vector256<uint> tmp1 = Avx2.Shuffle(right.AsUInt32(), ZWXY);
-                GenTree*            shuffleMask = gtNewIconNode(SHUFFLE_ZWXY, TYP_INT);
-                GenTreeHWIntrinsic* tmp1 =
-                    gtNewSimdHWIntrinsicNode(type, op2Dup, shuffleMask, is256 ? NI_AVX2_Shuffle : NI_SSE2_Shuffle,
-                                             CORINFO_TYPE_UINT, simdSize);
+                    // result = tmp0 + tmp4;
+                    return gtNewSimdBinOpNode(GT_ADD, type, tmp0, tmp4, simdBaseJitType, simdSize);
+                }
+                else
+                {
+                    // SSE2 implementation is simple decomposition using pmuludq,
+                    // which multiplies two uint32s and returns a uint64 result.
+                    // aLo * bLo + ((aLo * bHi + aHi * bLo) << 32)
+                    GenTree* op1Dup1 = fgMakeMultiUse(&op1);
+                    GenTree* op1Dup2 = gtCloneExpr(op1Dup1);
+                    GenTree* op2Dup1 = fgMakeMultiUse(&op2);
+                    GenTree* op2Dup2 = gtCloneExpr(op2Dup1);
+
+                    // Vector128<ulong> low = Sse2.Multiply(left.AsUInt32(), right.AsUInt32());
+                    GenTreeHWIntrinsic* low =
+                        gtNewSimdHWIntrinsicNode(type, op1, op2, NI_SSE2_Multiply, CORINFO_TYPE_ULONG, simdSize);
 
-                // Vector256<uint> tmp2 = Avx2.MultiplyLow(left.AsUInt32(), tmp1);
-                GenTree* tmp2 = gtNewSimdBinOpNode(GT_MUL, type, op1Dup, tmp1, CORINFO_TYPE_UINT, simdSize);
+                    // Vector128<uint> rightHi = (right >>> 32).AsUInt32();
+                    GenTree* rightHi =
+                        gtNewSimdBinOpNode(GT_RSZ, type, op2Dup1, gtNewIconNode(32), simdBaseJitType, simdSize);
 
-                // Vector256<int> tmp3 = Avx2.HorizontalAdd(tmp2.AsInt32(), Vector256<int>.Zero);
-                GenTreeHWIntrinsic* tmp3 =
-                    gtNewSimdHWIntrinsicNode(type, tmp2, gtNewZeroConNode(type),
-                                             is256 ? NI_AVX2_HorizontalAdd : NI_SSSE3_HorizontalAdd, CORINFO_TYPE_UINT,
-                                             simdSize);
+                    // Vector128<ulong> tmp0 = Sse2.Multiply(rightHi, left.AsUInt32());
+                    GenTreeHWIntrinsic* tmp0 = gtNewSimdHWIntrinsicNode(type, rightHi, op1Dup1, NI_SSE2_Multiply,
+                                                                        CORINFO_TYPE_ULONG, simdSize);
 
-                // Vector256<int> tmp4 = Avx2.Shuffle(tmp3, YWXW);
-                shuffleMask = gtNewIconNode(SHUFFLE_YWXW, TYP_INT);
-                GenTreeHWIntrinsic* tmp4 =
-                    gtNewSimdHWIntrinsicNode(type, tmp3, shuffleMask, is256 ? NI_AVX2_Shuffle : NI_SSE2_Shuffle,
-                                             CORINFO_TYPE_UINT, simdSize);
+                    // Vector128<uint> leftHi = (left >>> 32).AsUInt32();
+                    GenTree* leftHi =
+                        gtNewSimdBinOpNode(GT_RSZ, type, op1Dup2, gtNewIconNode(32), simdBaseJitType, simdSize);
 
-                // result = tmp0 + tmp4;
-                return gtNewSimdBinOpNode(GT_ADD, type, tmp0, tmp4, simdBaseJitType, simdSize);
+                    // Vector128<ulong> tmp1 = Sse2.Multiply(leftHi, right.AsUInt32());
+                    GenTreeHWIntrinsic* tmp1 =
+                        gtNewSimdHWIntrinsicNode(type, leftHi, op2Dup2, NI_SSE2_Multiply, CORINFO_TYPE_ULONG, simdSize);
+
+                    // Vector128<ulong> tmp2 = tmp0 + tmp1;
+                    GenTree* tmp2 = gtNewSimdBinOpNode(GT_ADD, type, tmp0, tmp1, simdBaseJitType, simdSize);
+
+                    // Vector128<ulong> mid = tmp2 << 32;
+                    GenTree* mid = gtNewSimdBinOpNode(GT_LSH, type, tmp2, gtNewIconNode(32), simdBaseJitType, simdSize);
+
+                    // return low + mid;
+                    return gtNewSimdBinOpNode(GT_ADD, type, low, mid, simdBaseJitType, simdSize);
+                }
             }
 #elif defined(TARGET_ARM64)
             if (varTypeIsLong(simdBaseType))
diff --git a/src/coreclr/jit/hwintrinsiclistxarch.h b/src/coreclr/jit/hwintrinsiclistxarch.h
@@ -302,6 +302,7 @@ HARDWARE_INTRINSIC(Vector512,       Create,
 HARDWARE_INTRINSIC(Vector512,       CreateScalar,                               64,            -1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_SpecialImport|HW_Flag_NoCodeGen)
 HARDWARE_INTRINSIC(Vector512,       CreateScalarUnsafe,                         64,             1,      {INS_movd,              INS_movd,               INS_movd,               INS_movd,               INS_movd,               INS_movd,               INS_movd,               INS_movd,               INS_movss,              INS_movsd_simd},        HW_Category_SIMDScalar,             HW_Flag_SpecialImport|HW_Flag_SpecialCodeGen)
 HARDWARE_INTRINSIC(Vector512,       CreateSequence,                             64,             2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_InvalidNodeId)
+HARDWARE_INTRINSIC(Vector512,       Dot,                                        64,             2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_SpecialImport|HW_Flag_NoCodeGen|HW_Flag_BaseTypeFromFirstArg)
 HARDWARE_INTRINSIC(Vector512,       Equals,                                     64,             2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_InvalidNodeId|HW_Flag_BaseTypeFromFirstArg)
 HARDWARE_INTRINSIC(Vector512,       EqualsAny,                                  64,             2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_InvalidNodeId|HW_Flag_BaseTypeFromFirstArg)
 HARDWARE_INTRINSIC(Vector512,       ExtractMostSignificantBits,                 64,             1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Helper,                 HW_Flag_InvalidNodeId|HW_Flag_BaseTypeFromFirstArg)
diff --git a/src/coreclr/jit/hwintrinsicxarch.cpp b/src/coreclr/jit/hwintrinsicxarch.cpp
@@ -2446,40 +2446,40 @@ GenTree* Compiler::impSpecialIntrinsic(NamedIntrinsic        intrinsic,
 
         case NI_Vector128_Dot:
         case NI_Vector256_Dot:
+        case NI_Vector512_Dot:
         {
             assert(sig->numArgs == 2);
             var_types simdType = getSIMDTypeForSize(simdSize);
 
-            if (varTypeIsByte(simdBaseType) || varTypeIsLong(simdBaseType))
+            if ((simdSize == 32) && !varTypeIsFloating(simdBaseType) &&
+                !compOpportunisticallyDependsOn(InstructionSet_AVX2))
             {
-                // TODO-XARCH-CQ: We could support dot product for 8-bit and
-                // 64-bit integers if we support multiplication for the same
+                // We can't deal with TYP_SIMD32 for integral types if the compiler doesn't support AVX2
                 break;
             }
 
-            if (simdSize == 32)
-            {
-                if (!varTypeIsFloating(simdBaseType) && !compOpportunisticallyDependsOn(InstructionSet_AVX2))
-                {
-                    // We can't deal with TYP_SIMD32 for integral types if the compiler doesn't support AVX2
-                    break;
-                }
-            }
-            else if ((simdBaseType == TYP_INT) || (simdBaseType == TYP_UINT))
+#if defined(TARGET_X86)
+            if (varTypeIsLong(simdBaseType) && !compOpportunisticallyDependsOn(InstructionSet_SSE41))
             {
-                if (!compOpportunisticallyDependsOn(InstructionSet_SSE41))
-                {
-                    // TODO-XARCH-CQ: We can support 32-bit integers if we updating multiplication
-                    // to be lowered rather than imported as the relevant operations.
-                    break;
-                }
+                // We need SSE41 to handle long, use software fallback
+                break;
             }
+#endif // TARGET_X86
 
             op2 = impSIMDPopStack();
             op1 = impSIMDPopStack();
 
+            if ((simdSize == 64) || varTypeIsByte(simdBaseType) || varTypeIsLong(simdBaseType) ||
+                (varTypeIsInt(simdBaseType) && !compOpportunisticallyDependsOn(InstructionSet_SSE41)))
+            {
+                // The lowering for Dot doesn't handle these cases, so import as Sum(left * right)
+                retNode = gtNewSimdBinOpNode(GT_MUL, simdType, op1, op2, simdBaseJitType, simdSize);
+                retNode = gtNewSimdSumNode(retType, retNode, simdBaseJitType, simdSize);
+                break;
+            }
+
             retNode = gtNewSimdDotProdNode(simdType, op1, op2, simdBaseJitType, simdSize);
-            retNode = gtNewSimdGetElementNode(retType, retNode, gtNewIconNode(0), simdBaseJitType, simdSize);
+            retNode = gtNewSimdToScalarNode(retType, retNode, simdBaseJitType, simdSize);
             break;
         }
 
@@ -3345,30 +3345,14 @@ GenTree* Compiler::impSpecialIntrinsic(NamedIntrinsic        intrinsic,
                 break;
             }
 
-            assert(simdSize != 64 || IsBaselineVector512IsaSupportedDebugOnly());
-
+#if defined(TARGET_X86)
             if (varTypeIsLong(simdBaseType))
             {
-                if (TARGET_POINTER_SIZE == 4)
-                {
-                    // TODO-XARCH-CQ: 32bit support
-                    break;
-                }
-
-                if ((simdSize == 32) && compOpportunisticallyDependsOn(InstructionSet_AVX2))
-                {
-                    // Emulate NI_AVX512DQ_VL_MultiplyLow with AVX2 for SIMD32
-                }
-                else if ((simdSize == 16) && compOpportunisticallyDependsOn(InstructionSet_SSE41))
-                {
-                    // Emulate NI_AVX512DQ_VL_MultiplyLow with SSE41 for SIMD16
-                }
-                else if (simdSize != 64)
-                {
-                    // Software fallback
-                    break;
-                }
+                // TODO-XARCH-CQ: We can't handle long here, only because one of the args might
+                // be scalar, and gtNewSimdCreateBroadcastNode doesn't handle long on x86.
+                break;
             }
+#endif // TARGET_X86
 
             CORINFO_ARG_LIST_HANDLE arg1     = sig->args;
             CORINFO_ARG_LIST_HANDLE arg2     = info.compCompHnd->getArgNext(arg1);
@@ -3403,31 +3387,6 @@ GenTree* Compiler::impSpecialIntrinsic(NamedIntrinsic        intrinsic,
                 break;
             }
 
-            assert(simdSize != 64 || IsBaselineVector512IsaSupportedDebugOnly());
-
-            if (varTypeIsLong(simdBaseType))
-            {
-                if (TARGET_POINTER_SIZE == 4)
-                {
-                    // TODO-XARCH-CQ: 32bit support
-                    break;
-                }
-
-                if ((simdSize == 32) && compOpportunisticallyDependsOn(InstructionSet_AVX2))
-                {
-                    // Emulate NI_AVX512DQ_VL_MultiplyLow with AVX2 for SIMD32
-                }
-                else if ((simdSize == 16) && compOpportunisticallyDependsOn(InstructionSet_SSE41))
-                {
-                    // Emulate NI_AVX512DQ_VL_MultiplyLow with SSE41 for SIMD16
-                }
-                else if (simdSize != 64)
-                {
-                    // Software fallback
-                    break;
-                }
-            }
-
             op3 = impSIMDPopStack();
             op2 = impSIMDPopStack();
             op1 = impSIMDPopStack();
@@ -3835,17 +3794,15 @@ GenTree* Compiler::impSpecialIntrinsic(NamedIntrinsic        intrinsic,
         {
             assert(sig->numArgs == 1);
 
-            if ((simdSize == 32) && !compOpportunisticallyDependsOn(InstructionSet_AVX2))
-            {
-                // Vector256 requires AVX2
-                break;
-            }
-            else if ((simdSize == 16) && !compOpportunisticallyDependsOn(InstructionSet_SSE2))
+            if ((simdSize == 32) && !varTypeIsFloating(simdBaseType) &&
+                !compOpportunisticallyDependsOn(InstructionSet_AVX2))
             {
+                // We can't deal with TYP_SIMD32 for integral types if the compiler doesn't support AVX2
                 break;
             }
+
 #if defined(TARGET_X86)
-            else if (varTypeIsLong(simdBaseType) && !compOpportunisticallyDependsOn(InstructionSet_SSE41))
+            if (varTypeIsLong(simdBaseType) && !compOpportunisticallyDependsOn(InstructionSet_SSE41))
             {
                 // We need SSE41 to handle long, use software fallback
                 break;