Tiiiger
diff --git a/‎qtorch/quant/quant_cpu/bit_helper.cpp
+30-14 b/‎qtorch/quant/quant_cpu/bit_helper.cpp
+30-14
diff --git a/‎qtorch/quant/quant_cpu/quant_cpu.cpp
+96-50 b/‎qtorch/quant/quant_cpu/quant_cpu.cpp
+96-50
diff --git a/‎qtorch/quant/quant_cpu/quant_cpu.h
+4-4 b/‎qtorch/quant/quant_cpu/quant_cpu.h
+4-4
@@ -2,31 +2,47 @@
 
 unsigned int clip_exponent(int exp_bits, int man_bits,
                            unsigned int old_num,
-                           unsigned int quantized_num) {
-  if (quantized_num == 0) return quantized_num;
+                           unsigned int quantized_num)
+{
+  if (quantized_num == 0)
+    return quantized_num;
 
   int quantized_exponent_store = quantized_num << 1 >> 1 >> 23; // 1 sign bit, 23 mantissa bits
-  int min_exponent_store = -((1 << (exp_bits-1))-1) + 127;
-  int max_exponent_store = ((1 << (exp_bits-1))-1) + 127; // excluding the exponent for infinity
-  if (quantized_exponent_store > max_exponent_store) {
-    unsigned int max_man = (unsigned int ) -1 << 9 >> 9 >> (23-man_bits) << (23-man_bits); // 1 sign bit, 8 exponent bits, 1 virtual bit
-    unsigned int max_num = ((unsigned int) max_exponent_store << 23) | max_man;
+  int min_exponent_store = -((1 << (exp_bits - 1)) - 1) + 127;
+  int max_exponent_store = ((1 << (exp_bits - 1)) - 1) + 127; // excluding the exponent for infinity
+  if (quantized_exponent_store > max_exponent_store)
+  {
+    unsigned int max_man = (unsigned int)-1 << 9 >> 9 >> (23 - man_bits) << (23 - man_bits); // 1 sign bit, 8 exponent bits, 1 virtual bit
+    unsigned int max_num = ((unsigned int)max_exponent_store << 23) | max_man;
     unsigned int old_sign = old_num >> 31 << 31;
     quantized_num = old_sign | max_num;
-  } else if (quantized_exponent_store < min_exponent_store) {
-    unsigned int min_num = ((unsigned int) min_exponent_store << 23);
-    unsigned int old_sign = old_num >> 31 << 31;
-    quantized_num = old_sign | min_num;
+  }
+  else if (quantized_exponent_store < min_exponent_store)
+  {
+    unsigned int min_num = ((unsigned int)min_exponent_store << 23);
+    unsigned int middle_num = ((unsigned int)(min_exponent_store - 1) << 23);
+    unsigned int unsigned_quantized_num = quantized_num << 1 >> 1;
+    if (unsigned_quantized_num > middle_num)
+    {
+      unsigned int old_sign = old_num >> 31 << 31;
+      quantized_num = old_sign | min_num;
+    }
+    else
+    {
+      quantized_num = 0;
+    }
   }
   return quantized_num;
 }
 
 unsigned int clip_max_exponent(int man_bits,
                                unsigned int max_exponent,
-                               unsigned int quantized_num) {
+                               unsigned int quantized_num)
+{
   unsigned int quantized_exponent = quantized_num << 1 >> 24 << 23; // 1 sign bit, 23 mantissa bits
-  if (quantized_exponent > max_exponent) {
-    unsigned int max_man = (unsigned int ) -1 << 9 >> 9 >> (23-man_bits) << (23-man_bits); // 1 sign bit, 8 exponent bits
+  if (quantized_exponent > max_exponent)
+  {
+    unsigned int max_man = (unsigned int)-1 << 9 >> 9 >> (23 - man_bits) << (23 - man_bits); // 1 sign bit, 8 exponent bits
     unsigned int max_num = max_exponent | max_man;
     unsigned int old_sign = quantized_num >> 31 << 31;
     quantized_num = old_sign | max_num;
 
@@ -6,42 +6,61 @@
 
 using namespace at;
 
-enum Mode {rNearest, rStochastic};
+enum Mode
+{
+  rNearest,
+  rStochastic
+};
 
 #define CHECK_CONTIGUOUS(x) AT_CHECK(x.is_contiguous(), #x " must be contiguous")
 #define CHECK_CPU(x) AT_CHECK(!x.type().is_cuda(), #x " must be a CPU tensor")
-#define CHECK_INPUT(x) CHECK_CPU(x); CHECK_CONTIGUOUS(x);
+#define CHECK_INPUT(x) \
+  CHECK_CPU(x);        \
+  CHECK_CONTIGUOUS(x);
 
-#define RFLOAT_TO_BITS(x) (*reinterpret_cast<unsigned int*>(x))
-#define RBITS_TO_FLOAT(x) (*reinterpret_cast<float*>(x))
-#define FLOAT_TO_BITS(f, i) assert(sizeof f == sizeof i); std::memcpy(&i, &f, sizeof i)
-#define BITS_TO_FLOAT(i, f) assert(sizeof f == sizeof i); std::memcpy(&f, &i, sizeof f)
+#define RFLOAT_TO_BITS(x) (*reinterpret_cast<unsigned int *>(x))
+#define RBITS_TO_FLOAT(x) (*reinterpret_cast<float *>(x))
+#define FLOAT_TO_BITS(f, i)     \
+  assert(sizeof f == sizeof i); \
+  std::memcpy(&i, &f, sizeof i)
+#define BITS_TO_FLOAT(i, f)     \
+  assert(sizeof f == sizeof i); \
+  std::memcpy(&f, &i, sizeof f)
 
 std::random_device rd;
 std::mt19937 gen(rd());
 std::uniform_int_distribution<> dis(0);
 
 template <typename T>
-T clamp_helper(T a, T min, T max) {
-  if (a > max) return max;
-  else if (a < min) return min;
-  else return a;
+T clamp_helper(T a, T min, T max)
+{
+  if (a > max)
+    return max;
+  else if (a < min)
+    return min;
+  else
+    return a;
 }
 
 template <typename T>
-T clamp_mask_helper(T a, T min, T max, uint8_t* mask) {
-  if (a > max) {
+T clamp_mask_helper(T a, T min, T max, uint8_t *mask)
+{
+  if (a > max)
+  {
     *mask = 1;
     return max;
   }
-  else if (a < min) {
+  else if (a < min)
+  {
     *mask = 1;
     return min;
   }
-  else return a;
+  else
+    return a;
 }
 
-std::tuple<Tensor, Tensor> fixed_point_quantize_stochastic_mask(Tensor a, int wl, int fl, bool symmetric) {
+std::tuple<Tensor, Tensor> fixed_point_quantize_stochastic_mask(Tensor a, int wl, int fl, bool symmetric)
+{
   CHECK_INPUT(a);
   auto r = rand_like(a);
   auto a_array = a.data<float>();
@@ -54,14 +73,16 @@ std::tuple<Tensor, Tensor> fixed_point_quantize_stochastic_mask(Tensor a, int wl
   int sigma = -fl;
   float t_min, t_max;
   fixed_min_max(wl, fl, symmetric, &t_min, &t_max);
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     o_array[i] = round(a_array[i], r_array[i], sigma);
-    o_array[i] = clamp_mask_helper<float>(o_array[i], t_min, t_max, m_array+i);
+    o_array[i] = clamp_mask_helper<float>(o_array[i], t_min, t_max, m_array + i);
   }
   return std::make_tuple(o, m);
 }
 
-std::tuple<Tensor, Tensor> fixed_point_quantize_nearest_mask(Tensor a, int wl, int fl, bool symmetric) {
+std::tuple<Tensor, Tensor> fixed_point_quantize_nearest_mask(Tensor a, int wl, int fl, bool symmetric)
+{
   CHECK_INPUT(a);
   auto a_array = a.data<float>();
   auto o = zeros_like(a);
@@ -72,14 +93,16 @@ std::tuple<Tensor, Tensor> fixed_point_quantize_nearest_mask(Tensor a, int wl, i
   int sigma = -fl;
   float t_min, t_max;
   fixed_min_max(wl, fl, symmetric, &t_min, &t_max);
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     o_array[i] = round(a_array[i], 0.5, sigma);
-    o_array[i] = clamp_mask_helper<float>(o_array[i], t_min, t_max, m_array+i);
+    o_array[i] = clamp_mask_helper<float>(o_array[i], t_min, t_max, m_array + i);
   }
   return std::make_tuple(o, m);
 }
 
-Tensor fixed_point_quantize_stochastic(Tensor a, int wl, int fl, bool clamp, bool symmetric) {
+Tensor fixed_point_quantize_stochastic(Tensor a, int wl, int fl, bool clamp, bool symmetric)
+{
   CHECK_INPUT(a);
   auto r = rand_like(a);
   auto a_array = a.data<float>();
@@ -90,16 +113,19 @@ Tensor fixed_point_quantize_stochastic(Tensor a, int wl, int fl, bool clamp, boo
   int sigma = -fl;
   float t_min, t_max;
   fixed_min_max(wl, fl, symmetric, &t_min, &t_max);
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     o_array[i] = round(a_array[i], r_array[i], sigma);
-    if (clamp) {
+    if (clamp)
+    {
       o_array[i] = clamp_helper(o_array[i], t_min, t_max);
     }
   }
   return o;
 }
 
-Tensor fixed_point_quantize_nearest(Tensor a, int wl, int fl, bool clamp, bool symmetric) {
+Tensor fixed_point_quantize_nearest(Tensor a, int wl, int fl, bool clamp, bool symmetric)
+{
   CHECK_INPUT(a);
   auto a_array = a.data<float>();
   Tensor o = zeros_like(a);
@@ -108,31 +134,39 @@ Tensor fixed_point_quantize_nearest(Tensor a, int wl, int fl, bool clamp, bool s
   int sigma = -fl;
   float t_min, t_max;
   fixed_min_max(wl, fl, symmetric, &t_min, &t_max);
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     o_array[i] = round(a_array[i], 0.5, sigma);
-    if (clamp) {
+    if (clamp)
+    {
       o_array[i] = clamp_helper(o_array[i], t_min, t_max);
     }
   }
   return o;
 }
 
-unsigned int round_bitwise(unsigned int target, int man_bits, Mode rounding){
-  unsigned int mask = (1 << (23-man_bits)) - 1;
+unsigned int round_bitwise(unsigned int target, int man_bits, Mode rounding)
+{
+  unsigned int mask = (1 << (23 - man_bits)) - 1;
   unsigned int rand_prob;
-  if (rounding == rStochastic) {
+  if (rounding == rStochastic)
+  {
     rand_prob = (dis(gen)) & mask;
-  } else {
-    rand_prob = 1 << (23-man_bits-1);
   }
-  unsigned int add_r = target+rand_prob;
+  else
+  {
+    rand_prob = 1 << (23 - man_bits - 1);
+  }
+  unsigned int add_r = target + rand_prob;
   unsigned int quantized = add_r & ~mask;
   return quantized;
 }
 
-void block_quantize_helper(float* input, float* output, float* max_elem,
-                           int wl, int size, Mode rounding) {
-  for (int64_t i=0; i < size; i++) {
+void block_quantize_helper(float *input, float *output, float *max_elem,
+                           int wl, int size, Mode rounding)
+{
+  for (int64_t i = 0; i < size; i++)
+  {
 
     unsigned int max_num;
     FLOAT_TO_BITS(max_elem[i], max_num);
@@ -141,31 +175,37 @@ void block_quantize_helper(float* input, float* output, float* max_elem,
     BITS_TO_FLOAT(max_exp, base_float);
     base_float *= 6;
 
-    float target_rebase = input[i]+base_float;
+    float target_rebase = input[i] + base_float;
     unsigned int target_bits;
     FLOAT_TO_BITS(target_rebase, target_bits);
     unsigned int quantized_bits = round_bitwise(target_bits, wl, rounding); // -1 sign, -1 virtual, +2 base
     float quantized_rebase;
     BITS_TO_FLOAT(quantized_bits, quantized_rebase);
-    float quantized = quantized_rebase-base_float;
+    float quantized = quantized_rebase - base_float;
 
     unsigned int quantize_bits;
     FLOAT_TO_BITS(quantized, quantize_bits);
-    unsigned int clip_quantize = clip_max_exponent(wl-2, max_exp, quantize_bits);
+    unsigned int clip_quantize = clip_max_exponent(wl - 2, max_exp, quantize_bits);
     BITS_TO_FLOAT(clip_quantize, quantized);
 
     output[i] = quantized;
   }
 }
 
-Tensor get_max_entry(Tensor a, int dim) {
+Tensor get_max_entry(Tensor a, int dim)
+{
   Tensor max_entry;
-  if (dim == -1) {
+  if (dim == -1)
+  {
     max_entry = at::max(at::abs(a)).expand_as(a).contiguous();
-  } else if (dim == 0) {
+  }
+  else if (dim == 0)
+  {
     Tensor input_view = a.view({a.size(0), -1});
     max_entry = std::get<0>(input_view.max(1, true)).abs().expand_as(input_view).view_as(a).contiguous();
-  } else {
+  }
+  else
+  {
     Tensor input_transpose = a.transpose(0, dim);
     Tensor input_view = input_transpose.contiguous().view({input_transpose.size(0), -1});
     Tensor max_transpose = std::get<0>(input_view.max(1, true)).abs().expand_as(input_view).view_as(input_transpose);
@@ -174,7 +214,8 @@ Tensor get_max_entry(Tensor a, int dim) {
   return max_entry;
 }
 
-Tensor block_quantize_nearest(Tensor a, int wl, int dim) {
+Tensor block_quantize_nearest(Tensor a, int wl, int dim)
+{
   CHECK_INPUT(a);
   auto a_array = a.data<float>();
   Tensor o = zeros_like(a);
@@ -188,7 +229,8 @@ Tensor block_quantize_nearest(Tensor a, int wl, int dim) {
   return o;
 }
 
-Tensor block_quantize_stochastic(Tensor a, int wl, int dim) {
+Tensor block_quantize_stochastic(Tensor a, int wl, int dim)
+{
   CHECK_INPUT(a);
   auto a_array = a.data<float>();
   Tensor o = zeros_like(a);
@@ -203,15 +245,16 @@ Tensor block_quantize_stochastic(Tensor a, int wl, int dim) {
   return o;
 }
 
-
-Tensor float_quantize_stochastic(Tensor a, int man_bits, int exp_bits) {
+Tensor float_quantize_stochastic(Tensor a, int man_bits, int exp_bits)
+{
   // use external random number right now
   auto a_array = a.data<float>();
   auto o = zeros_like(a);
   auto o_array = o.data<float>();
   int size = a.numel();
 
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     unsigned int target;
     FLOAT_TO_BITS(a_array[i], target);
     unsigned int quantize_bits = round_bitwise(target, man_bits, rStochastic);
@@ -223,13 +266,15 @@ Tensor float_quantize_stochastic(Tensor a, int man_bits, int exp_bits) {
   return o;
 }
 
-Tensor float_quantize_nearest(Tensor a, int man_bits, int exp_bits) {
+Tensor float_quantize_nearest(Tensor a, int man_bits, int exp_bits)
+{
   auto a_array = a.data<float>();
   auto o = zeros_like(a);
   auto o_array = o.data<float>();
   int size = a.numel();
 
-  for (int64_t i=0; i < size; i++) {
+  for (int64_t i = 0; i < size; i++)
+  {
     unsigned int target;
     FLOAT_TO_BITS(a_array[i], target);
     unsigned int quantize_bits = round_bitwise(target, man_bits, rNearest);
@@ -241,7 +286,8 @@ Tensor float_quantize_nearest(Tensor a, int man_bits, int exp_bits) {
   return o;
 }
 
-PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
+{
   m.def("fixed_point_quantize_stochastic_mask", &fixed_point_quantize_stochastic_mask, "Fixed Point Number Stochastic Quantization with Mask (CPU)");
   m.def("fixed_point_quantize_stochastic", &fixed_point_quantize_stochastic, "Fixed Point Number Stochastic Quantization (CPU)");
   m.def("block_quantize_stochastic", &block_quantize_stochastic, "Block Floating Point Number Stochastic Quantization (CPU)");
 
@@ -7,12 +7,12 @@ unsigned int clip_max_exponent(int man_bits,
                                unsigned int max_exponent,
                                unsigned int quantized_num);
 
-
-template <typename T> T clamp_helper(T a, T min, T max);
+template <typename T>
+T clamp_helper(T a, T min, T max);
 
 template <typename T>
-T clamp_mask_helper(T a, T min, T max, uint8_t* mask);
+T clamp_mask_helper(T a, T min, T max, uint8_t *mask);
 
-void fixed_min_max(int wl, int fl, bool symmetric, float* t_min, float* t_max);
+void fixed_min_max(int wl, int fl, bool symmetric, float *t_min, float *t_max);
 
 float round(float a, float r, int sigma);