pytorch
diff --git a/‎defs.bzl
Lines changed: 2 additions & 2 deletions b/‎defs.bzl
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/TransposeUtils.cc
Lines changed: 10 additions & 0 deletions b/‎src/TransposeUtils.cc
Lines changed: 10 additions & 0 deletions
diff --git a/‎src/TransposeUtils.h
Lines changed: 16 additions & 0 deletions b/‎src/TransposeUtils.h
Lines changed: 16 additions & 0 deletions
@@ -143,10 +143,10 @@ def get_fbgemm_inline_avx512_srcs(msvc = False, buck = False):
     return asm_srcs if not msvc else intrinsics_srcs
 
 def get_fbgemm_inline_sve_srcs(msvc = False, buck = False):
-    intrinsics_srcs = ["src/FbgemmFP16UKernelsSve128.cc"]
+    intrinsics_srcs = ["src/FbgemmFP16UKernelsSve128.cc", "src/UtilsSve.cc"]
 
     #FP16 kernels contain inline assembly and inline assembly syntax for MSVC is different.
-    asm_srcs = ["src/FbgemmFP16UKernelsSve128.cc"]
+    asm_srcs = ["src/FbgemmFP16UKernelsSve128.cc", "src/UtilsSve.cc"]
     if buck:
         return select({
             "DEFAULT": asm_srcs,
 
@@ -46,6 +46,14 @@ void transpose_simd(
     }
     return;
   }
+
+#ifdef __aarch64__
+  if constexpr (std::is_same<T, float>::value) {
+    internal::transpose_sve<T>(M, N, src, ld_src, dst, ld_dst);
+  } else {
+    transpose_ref<T>(M, N, src, ld_src, dst, ld_dst);
+  }
+#else
   static const auto iset = fbgemmInstructionSet();
   // Run time CPU detection
   if (isZmm(iset)) {
@@ -55,6 +63,8 @@ void transpose_simd(
   } else {
     transpose_ref<T>(M, N, src, ld_src, dst, ld_dst);
   }
+
+#endif
 }
 
 template void transpose_ref<float>(
 
@@ -62,6 +62,22 @@ void transpose_avx512(
     T* dst,
     int64_t ld_dst);
 
+#ifdef __aarch64__
+/**
+ * @brief Transpose a matrix using Intel AVX2.
+ *
+ * This is called if the code is running on a CPU with Intel AVX2 support.
+ */
+template <typename T>
+void transpose_sve(
+    int64_t M,
+    int64_t N,
+    const T* src,
+    int64_t ld_src,
+    T* dst,
+    int64_t ld_dst);
+#endif // __aarch64__
+
 } // namespace internal
 
 } // namespace fbgemm
Original file line number	Diff line number	Diff line change
`@@ -46,6 +46,14 @@ void transpose_simd(`
`46`	`46`	`}`
`47`	`47`	`return;`
`48`	`48`	`}`
	`49`	`+`
	`50`	`+#ifdef __aarch64__`
	`51`	`+ if constexpr (std::is_same<T, float>::value) {`
	`52`	`+ internal::transpose_sve<T>(M, N, src, ld_src, dst, ld_dst);`
	`53`	`+ } else {`
	`54`	`+ transpose_ref<T>(M, N, src, ld_src, dst, ld_dst);`
	`55`	`+ }`
	`56`	`+#else`
`49`	`57`	`static const auto iset = fbgemmInstructionSet();`
`50`	`58`	`// Run time CPU detection`
`51`	`59`	`if (isZmm(iset)) {`
`@@ -55,6 +63,8 @@ void transpose_simd(`
`55`	`63`	`} else {`
`56`	`64`	`transpose_ref<T>(M, N, src, ld_src, dst, ld_dst);`
`57`	`65`	`}`
	`66`	`+`
	`67`	`+#endif`
`58`	`68`	`}`
`59`	`69`
`60`	`70`	`template void transpose_ref<float>(`