pytorch
diff --git a/‎torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp_qsi4c32p.h
Lines changed: 23 additions & 52 deletions b/‎torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp_qsi4c32p.h
Lines changed: 23 additions & 52 deletions
@@ -23,16 +23,14 @@ namespace torchao::kernels::cpu::aarch64::kleidi {
 // Helper functions
 // TODO: find a better place for these?
 
-size_t roundup(size_t a, size_t b) {
-  return ((a + b - 1) / b) * b;
-}
+size_t roundup(size_t a, size_t b) { return ((a + b - 1) / b) * b; }
 
 uint16_t get_bf16_from_float(float f) {
   uint16_t bf16;
 #if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
   memcpy(&bf16, &f, sizeof(uint16_t));
 #else
-  const void* fp = reinterpret_cast<const void*>(
+  const void *fp = reinterpret_cast<const void *>(
       reinterpret_cast<uintptr_t>(&f) + sizeof(float) - sizeof(uint16_t));
   memcpy(&bf16, fp, sizeof(uint16_t));
 #endif // __BYTE_ORDER__
@@ -45,52 +43,31 @@ using Ukernel = struct kai_matmul_clamp_f32_qai8dxp_qsi4c32p_ukernel;
 
 size_t activation_data_size(const Ukernel ukernel, int m, int k) {
   auto lhs_packing = get_lhs_packing();
-  return lhs_packing.get_lhs_packed_size(
-      m, k, ukernel.get_mr(), ukernel.get_kr(), ukernel.get_sr());
+  return lhs_packing.get_lhs_packed_size(m, k, ukernel.get_mr(),
+                                         ukernel.get_kr(), ukernel.get_sr());
 }
 
-void prepare_activation_data(
-    const Ukernel ukernel,
-    void* activation_data,
-    int m,
-    int k,
-    const float* activations) {
+void prepare_activation_data(const Ukernel ukernel, void *activation_data,
+                             int m, int k, const float *activations) {
   auto lhs_pack = get_lhs_packing();
 
-  lhs_pack.run_lhs_pack(
-      m,
-      k,
-      ukernel.get_mr(),
-      ukernel.get_kr(),
-      ukernel.get_sr(),
-      /*m_index_start=*/0,
-      activations,
-      /*lhs_stride=*/k * sizeof(float),
-      activation_data);
+  lhs_pack.run_lhs_pack(m, k, ukernel.get_mr(), ukernel.get_kr(),
+                        ukernel.get_sr(),
+                        /*m_index_start=*/0, activations,
+                        /*lhs_stride=*/k * sizeof(float), activation_data);
 }
 
 size_t weight_data_size(const Ukernel ukernel, int n, int k, int group_size) {
   auto rhs_pack = get_rhs_packing();
-  return rhs_pack.get_rhs_packed_size(
-      n,
-      k,
-      ukernel.get_nr(),
-      ukernel.get_kr(),
-      ukernel.get_sr(),
-      group_size,
-      kai_datatype::kai_dt_bf16);
+  return rhs_pack.get_rhs_packed_size(n, k, ukernel.get_nr(), ukernel.get_kr(),
+                                      ukernel.get_sr(), group_size,
+                                      kai_datatype::kai_dt_bf16);
 }
 
-void prepare_weight_data(
-    const Ukernel ukernel,
-    void* weight_data,
-    int n,
-    int k,
-    int group_size,
-    const int8_t* weight_qvals,
-    const float* weight_scales,
-    const int8_t* weight_zeros,
-    const float* bias) {
+void prepare_weight_data(const Ukernel ukernel, void *weight_data, int n, int k,
+                         int group_size, const int8_t *weight_qvals,
+                         const float *weight_scales, const int8_t *weight_zeros,
+                         const float *bias) {
   // TODO(T204312268) - remove this constraint and pad when possible
   assert(n % 2 == 0);
 
@@ -123,25 +100,19 @@ void prepare_weight_data(
   }
 
   // Parameters for packing
-  rhs_packing::qparams_t qparams{
-      .lhs_zero_point = 1,
-      .rhs_zero_point = wzp,
-      .scale_dt = kai_datatype::kai_dt_bf16};
+  rhs_packing::qparams_t qparams{.lhs_zero_point = 1,
+                                 .rhs_zero_point = wzp,
+                                 .scale_dt = kai_datatype::kai_dt_bf16};
 
   auto rhs_pack = get_rhs_packing();
 
   rhs_pack.run_rhs_pack(
-      /*groups=*/1,
-      n,
-      k,
-      ukernel.get_nr(),
-      ukernel.get_kr(),
-      ukernel.get_sr(),
+      /*groups=*/1, n, k, ukernel.get_nr(), ukernel.get_kr(), ukernel.get_sr(),
       group_size,
-      /*rhs=*/reinterpret_cast<const uint8_t*>(packed_weight_qvals.data()),
+      /*rhs=*/reinterpret_cast<const uint8_t *>(packed_weight_qvals.data()),
       /*rhs_stride=*/roundup(k, 2) / 2,
       /*bias=*/bias,
-      /*scale=*/reinterpret_cast<const uint16_t*>(weight_scales_bf16.data()),
+      /*scale=*/reinterpret_cast<const uint16_t *>(weight_scales_bf16.data()),
       /*scale_stride=*/sizeof(uint16_t) * (roundup(k, group_size) / group_size),
       /*rhs_packed=*/weight_data,
       /*extra_bytes=*/0,