shrink params

CodingPlatelets · CodingPlatelets · commit f375f01bfded · 2024-12-24T19:38:24.000+08:00
diff --git a/src/main/scala/kernel/alu/Softmax.scala b/src/main/scala/kernel/alu/Softmax.scala
@@ -5,6 +5,7 @@ import chisel3.util._
 import kernel.utils.DebugLog
 import fixedpoint._
 import kernel.utils.PipeValue
+import math.pow
 import kernel.utils.common
 
 trait SoftmaxAccuracy {
@@ -76,4 +77,96 @@ class Softmax(val arraySize: Int = 4) extends Module with SoftmaxAccuracy with D
   }
 
   io.soft_x <> Pipe(softTmp.map(_.valid).reduce(_ & _), VecInit(softTmp.map(_.bits)), 0)
-}
+}
+
+// from Sanger, need test
+class ExpUnitFixPoint(width: Int, point: Int, lut_bits: Int, append_bits: Int) extends Module {
+  val v_width = width + append_bits
+  val v_point = point + append_bits
+  val fpType = FixedPoint(width.W, point.BP)
+  val vType = FixedPoint(v_width.W, v_point.BP)
+  val io = IO(new Bundle {
+    val in_value = Input(fpType)
+    val out_exp = Output(fpType)
+  })
+
+  val x = Wire(UInt(width.W))
+  val y = Wire(UInt(v_width.W))
+  val z1 = Wire(vType)
+  val z2 = Wire(vType)
+
+  val s = Reg(fpType)
+
+  val u = Wire(UInt((width - point).W))
+  val v = Wire(vType)
+
+  val testers =
+    Range.BigDecimal(0.0, 1.0, pow(2.0, -point)).map((a) => pow(2.0, a.toDouble) - a)
+  val d_value =
+    (testers.reduce((a, b) => if (a > b) a else b) +
+      testers.reduce((a, b) => if (a < b) a else b)) / 2.0
+
+  val d_fixed = FixedPoint.fromBigDecimal(d_value, v_width.W, v_point.BP)
+  val d_wire = Wire(vType)
+  if (lut_bits == 0)
+    d_wire := d_fixed
+  else {
+    val lut_in = Range(0, 1 << lut_bits)
+    val lut_out =
+      lut_in
+        .map((x) => x / pow(2.0, lut_bits))
+        .map((x) => {
+          val r = Range
+            .BigDecimal(x, x + pow(2.0, -lut_bits), pow(2.0, -lut_bits))
+            .map((y) => pow(2.0, y.toDouble) - y)
+          (r.reduce((a, b) => if (a > b) a else b) +
+            r.reduce((a, b) => if (a < b) a else b)) / 2.0
+        })
+        .map((x) =>
+          FixedPoint
+            .fromBigDecimal(x, v_width.W, v_point.BP)
+        )
+    // val lut_mem = Mem(lut_in.length, vType)
+    // for (i <- 0 until lut_out.length)
+    //   lut_mem(i.U) := lut_out(i)
+
+    val v_bits = Wire(UInt(lut_bits.W))
+    v_bits := v.asUInt(v_point - 1, v_point - lut_bits)
+
+    var w = when(v_bits === lut_in(0).U) {
+      d_wire := lut_out(0)
+    }
+    for (i <- 1 until lut_in.size)
+      w = w.elsewhen(v_bits === lut_in(i).U) {
+        d_wire := lut_out(i)
+      }
+    w.otherwise {
+      d_wire := DontCare
+    }
+    // d_wire := lut_mem(v_bits)
+  }
+  // println(d_fixed)
+
+  x := io.in_value.asUInt
+  y := (x << append_bits) + (x << (append_bits - 1)) - (x << (append_bits - 4));
+
+  u := y(v_width - 1, v_point)
+  v := Cat(0.U((v_width - v_point).W), y(v_point - 1, 0))
+    .asFixedPoint(v_point.BP)
+
+  z1 := v + d_wire
+  z2 := z1 << u;
+
+  // printf(
+  //   "x:%b y:%b u:%b v:%b d:%b z1:%b z2:%b\n",
+  //   x,
+  //   y,
+  //   u,
+  //   v.asUInt(),
+  //   d_wire.asUInt(),
+  //   z1.asUInt(),
+  //   z2.asUInt()
+  // )
+
+  io.out_exp := z2
+}
diff --git a/src/main/scala/models/llama3/common/llamaConfig.scala b/src/main/scala/models/llama3/common/llamaConfig.scala
@@ -5,6 +5,10 @@ trait llamaConfig {
   val n_layers = 32
   val n_heads: Int = 32
 
+  val m = 16
+  val p = 8
+  val q = 24
+
   // head_dim is the dimension of each head
   val head_dim: Int = dim / n_heads
   val maxN:     Int = 8 * 1024
@@ -18,8 +22,10 @@ trait llamaConfig {
   val bits = 16
 
   // systolic array size
-  val systolicSize = 16
-  val systolicGroupSize = 1
+  val systolicSizeGen = 4
+  val systolicGroupSizeGen = 1
+  val systolicSizeMul = 4
+  val systolicGroupSizeMul = 1
 
   // DAC for zb, stream for heads
   val stream_size = 8
diff --git a/src/main/scala/models/llama3/metrixController.scala b/src/main/scala/models/llama3/metrixController.scala
@@ -9,16 +9,18 @@ import kernel.alu.DataWidthConfig
 import kernel.utils.DebugLog
 class metrixController extends Module with llamaConfig {}
 
+/*
+ * current systolic group idx
+ * @param nk: systolic group dim
+ * @param m: left matrix rows
+ * @param q: right matrix rows
+ */
 class currentSystolicGroupIdx(
-  val nk: Int,
-  val m:  Int,
-  val p:  Int,
-  val q:  Int
 )(
   implicit config: DataWidthConfig)
     extends Bundle
     with llamaConfig {
-
+  val nk: Int = systolicSizeGen * systolicGroupSizeGen
   val row = Output(UInt(log2Ceil(m / nk).W))
   val col = Output(UInt(log2Ceil(q / nk).W))
   val value = Output(UInt((nk * nk * config.inputWidth).W))
@@ -95,7 +97,7 @@ class MatrixRestore(
   val numBlocksRow = m / nk
   val numBlocksCol = p / nk
 
-  // 初始化输出矩阵
+  // initialize the output matrix
   io.outMatrix.foreach(_ := 0.U)
 
   for (blockRow <- 0 until numBlocksRow) {
@@ -163,27 +165,22 @@ object BlockMatrixRestore {
  * designed for QKV generation, but has a output for current systolic group idx
  */
 class GenerationMatrixMul(
-  val k:        Int,
-  val n:        Int,
-  val m:        Int,
-  val p:        Int,
-  val q:        Int,
   val gemmType: GEMMDataType.Type
 )(
   implicit config: DataWidthConfig)
     extends Module
     with llamaConfig
     with DebugLog {
   // param check
-  implicit val nk: Int = k * n
+  implicit val nk: Int = systolicSizeGen * systolicGroupSizeGen
   require(m % nk == 0)
   require(p % nk == 0)
   require(q % nk == 0)
 
   val io = IO(new Bundle {
     val in_a = Flipped(Decoupled(Vec(m * p, UInt(config.inputWidth.W))))
     val in_b = Flipped(Decoupled(Vec(p * q, UInt(config.inputWidth.W))))
-    val current = ValidIO(new currentSystolicGroupIdx(nk, m, p, q))
+    val current = ValidIO(new currentSystolicGroupIdx)
     val reset = Input(Bool())
   })
 
@@ -312,34 +309,22 @@ class GenerationMatrixMul(
  * the k1,n1 are for q,k generation, the k2,n2 are for q,k mul.
  */
 class QKMul(
-  val k1:       Int,
-  val n1:       Int,
-  val k2:       Int,
-  val n2:       Int,
-  val m:        Int,
-  val p:        Int,
-  val q:        Int,
   val gemmType: GEMMDataType.Type
 )(
   implicit config: DataWidthConfig)
     extends Module
     with llamaConfig
     with DebugLog {
 
-  val nk1: Int = k1 * n1
-  val nk2: Int = k2 * n2
+  val nk1: Int = systolicSizeGen * systolicGroupSizeGen
+  val nk2: Int = systolicSizeMul * systolicGroupSizeMul
   require(m % nk1 == 0)
   require(p % nk1 == 0)
   require(q % nk1 == 0)
   require(m % nk2 == 0)
   require(q % nk2 == 0)
 
   class QKGenerationMatrixMulWarper(
-    val k:          Int,
-    val n:          Int,
-    val m:          Int,
-    val p:          Int,
-    val q:          Int,
     val gemmType:   GEMMDataType.Type,
     val bufferSize: Int
   )(
@@ -351,16 +336,16 @@ class QKMul(
       val in_a = Flipped(Decoupled(Vec(m * p, UInt(config.inputWidth.W))))
       val in_b = Flipped(Decoupled(Vec(p * q, UInt(config.inputWidth.W))))
       val flush = Input(Bool())
-      val outMatrix = Decoupled(new currentSystolicGroupIdx(nk1, m, p, q))
+      val outMatrix = Decoupled(new currentSystolicGroupIdx)
     })
 
-    val qkGenMul = Module(new GenerationMatrixMul(k1, n1, m, p, q, gemmType))
+    val qkGenMul = Module(new GenerationMatrixMul(gemmType))
     io.in_a <> qkGenMul.io.in_a
     io.in_b <> qkGenMul.io.in_b
 
     val currentBuffer = Module(
       new Queue(
-        new currentSystolicGroupIdx(nk1, m, p, q),
+        new currentSystolicGroupIdx,
         entries = bufferSize,
         pipe = true,
         flow = false,
@@ -388,8 +373,8 @@ class QKMul(
     val resetBuffer = Input(Bool())
   })
 
-  val qGen = new QKGenerationMatrixMulWarper(k1, n1, m, p, q, gemmType, bufferSizeGemm)
-  val kGen = new QKGenerationMatrixMulWarper(k2, n2, m, p, q, gemmType, bufferSizeGemm)
+  val qGen = new QKGenerationMatrixMulWarper(gemmType, bufferSizeGemm)
+  val kGen = new QKGenerationMatrixMulWarper(gemmType, bufferSizeGemm)
 
   qGen.io.in_a <> io.inputToken
   qGen.io.in_b <> io.weightQ
@@ -413,3 +398,18 @@ class QKMul(
   }
 
 }
+
+class GemmPool(
+  val n:        Int,
+  val poolSize: Int,
+  val gemmType: GEMMDataType.Type
+)(
+  implicit config: DataWidthConfig)
+    extends Module
+    with llamaConfig
+    with DebugLog {
+  val io = IO(new Bundle {
+    val in = Flipped(Decoupled(new currentSystolicGroupIdx))
+  })
+
+}