tile-ai
diff --git a/‎examples/flash_attention/example_gqa_bwd.py‎
Lines changed: 54 additions & 11 deletions b/‎examples/flash_attention/example_gqa_bwd.py‎
Lines changed: 54 additions & 11 deletions
diff --git a/‎examples/flash_attention/example_gqa_bwd_wgmma_pipelined.py‎
Lines changed: 53 additions & 10 deletions b/‎examples/flash_attention/example_gqa_bwd_wgmma_pipelined.py‎
Lines changed: 53 additions & 10 deletions
diff --git a/‎examples/flash_attention/example_mha_bwd.py‎
Lines changed: 28 additions & 10 deletions b/‎examples/flash_attention/example_mha_bwd.py‎
Lines changed: 28 additions & 10 deletions
diff --git a/‎examples/flash_attention/example_mha_bwd_wgmma_pipelined.py‎
Lines changed: 28 additions & 10 deletions b/‎examples/flash_attention/example_mha_bwd_wgmma_pipelined.py‎
Lines changed: 28 additions & 10 deletions
@@ -147,7 +147,17 @@ def flash_bwd_post(
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_atomic_add(batch, heads, seq_len, dim_qk, dim_v, is_causal, block_M, block_N, threads=256, num_stages=2, groups=1):
+def flashattn_bwd_atomic_add(batch,
+                             heads,
+                             seq_len,
+                             dim_qk,
+                             dim_v,
+                             is_causal,
+                             block_M,
+                             block_N,
+                             threads=256,
+                             num_stages=2,
+                             groups=1):
     sm_scale = (1.0 / dim_qk)**0.5
     scale = (1.0 / dim_qk)**0.5 * 1.44269504  # log2(e)
     head_kv = heads // groups
@@ -228,17 +238,27 @@ def flash_bwd(
                     if k * block_N + i < seq_len:
                         T.atomic_add(dQ[bz, k * block_N + i, bx, j], dq[i, j])
             T.copy(dv, dv_shared)
-            T.atomic_add(dV[bz, by * block_M:(by+1) * block_M, bx // groups, :], dv_shared)
+            T.atomic_add(dV[bz, by * block_M:(by + 1) * block_M, bx // groups, :], dv_shared)
             T.copy(dk, dk_shared)
-            T.atomic_add(dK[bz, by * block_M:(by+1) * block_M, bx // groups, :], dk_shared)
+            T.atomic_add(dK[bz, by * block_M:(by + 1) * block_M, bx // groups, :], dk_shared)
 
     return flash_bwd
 
 
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_split(batch, heads, seq_len, dim_qk, dim_v, is_causal, block_M, block_N, threads=256, num_stages=2, groups=1):
+def flashattn_bwd_split(batch,
+                        heads,
+                        seq_len,
+                        dim_qk,
+                        dim_v,
+                        is_causal,
+                        block_M,
+                        block_N,
+                        threads=256,
+                        num_stages=2,
+                        groups=1):
     sm_scale = (1.0 / dim_qk)**0.5
     scale = (1.0 / dim_qk)**0.5 * 1.44269504  # log2(e)
     head_kv = heads // groups
@@ -367,8 +387,18 @@ def maybe_contiguous(x):
         delta = mod_prep(o, do)
 
         if ctx.use_atomic:
-            kernel = flashattn_bwd_atomic_add(BATCH, H, N_CTX, D_HEAD_QK, D_HEAD_V, ctx.causal, block_M, block_N,
-                                              threads=256, num_stages=2, groups=groups)
+            kernel = flashattn_bwd_atomic_add(
+                BATCH,
+                H,
+                N_CTX,
+                D_HEAD_QK,
+                D_HEAD_V,
+                ctx.causal,
+                block_M,
+                block_N,
+                threads=256,
+                num_stages=2,
+                groups=groups)
             shape_q = [BATCH, N_CTX, H, D_HEAD_QK]
             shape_k = [BATCH, N_CTX, HEAD_KV, D_HEAD_QK]
             shape_v = [BATCH, N_CTX, HEAD_KV, D_HEAD_V]
@@ -380,8 +410,18 @@ def maybe_contiguous(x):
             dk = dk.to(torch.float16)
             dv = dv.to(torch.float16)
         else:
-            kernel = flashattn_bwd_split(BATCH, H, N_CTX, D_HEAD_QK, D_HEAD_V, ctx.causal, block_M, block_N,
-                                         threads=256, num_stages=2, groups=groups)
+            kernel = flashattn_bwd_split(
+                BATCH,
+                H,
+                N_CTX,
+                D_HEAD_QK,
+                D_HEAD_V,
+                ctx.causal,
+                block_M,
+                block_N,
+                threads=256,
+                num_stages=2,
+                groups=groups)
             shape_q = [BATCH, N_CTX, H, D_HEAD_QK]
             shape_k = [groups, BATCH, N_CTX, HEAD_KV, D_HEAD_QK]  # sum after kernel
             shape_v = [groups, BATCH, N_CTX, HEAD_KV, D_HEAD_V]  # sum after kernel
@@ -493,8 +533,10 @@ def run1():
     parser.add_argument('--d_head_v', type=int, default=128, help='Head dimension for V')
     parser.add_argument('--causal', action='store_true', help='Causal flag')
     parser.add_argument('--groups', type=int, default=16, help='groups')
-    parser.add_argument('--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
-    parser.add_argument('--use_split', action='store_true', default=False, help='Use split for dK/dV')
+    parser.add_argument(
+        '--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
+    parser.add_argument(
+        '--use_split', action='store_true', default=False, help='Use split for dK/dV')
     args = parser.parse_args()
 
     # Handle backward compatibility and logic
@@ -506,4 +548,5 @@ def run1():
         # Default: use atomic
         use_atomic = True
 
-    main(args.batch, args.h, args.n_ctx, args.d_head_qk, args.d_head_v, args.groups, args.causal, use_atomic)
+    main(args.batch, args.h, args.n_ctx, args.d_head_qk, args.d_head_v, args.groups, args.causal,
+         use_atomic)
@@ -147,7 +147,17 @@ def flash_bwd_post(
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_atomic_add(batch, heads, seq_len, dim_qk, dim_v, is_causal, block_M, block_N, threads=256, num_stages=2, groups=1):
+def flashattn_bwd_atomic_add(batch,
+                             heads,
+                             seq_len,
+                             dim_qk,
+                             dim_v,
+                             is_causal,
+                             block_M,
+                             block_N,
+                             threads=256,
+                             num_stages=2,
+                             groups=1):
     sm_scale = (1.0 / dim_qk)**0.5
     scale = (1.0 / dim_qk)**0.5 * 1.44269504  # log2(e)
     head_kv = heads // groups
@@ -238,7 +248,7 @@ def flash_bwd(
                     if k * block_N + i < seq_len:
                         T.atomic_add(dQ[bz, k * block_N + i, bx, j], dq[i, j])
             T.copy(dv, dv_shared)
-            T.atomic_add(dV[bz, by * block_M:(by+1) * block_M, bx // groups, :], dv_shared)
+            T.atomic_add(dV[bz, by * block_M:(by + 1) * block_M, bx // groups, :], dv_shared)
             T.copy(dk, dk_shared)
             for i, j in T.Parallel(block_M, dim_qk):
                 T.atomic_add(dK[bz, by * block_M + i, bx // groups, j], dk_shared[i, j])
@@ -249,7 +259,17 @@ def flash_bwd(
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_split(batch, heads, seq_len, dim_qk, dim_v, is_causal, block_M, block_N, threads=256, num_stages=2, groups=1):
+def flashattn_bwd_split(batch,
+                        heads,
+                        seq_len,
+                        dim_qk,
+                        dim_v,
+                        is_causal,
+                        block_M,
+                        block_N,
+                        threads=256,
+                        num_stages=2,
+                        groups=1):
     sm_scale = (1.0 / dim_qk)**0.5
     scale = (1.0 / dim_qk)**0.5 * 1.44269504  # log2(e)
     head_kv = heads // groups
@@ -389,8 +409,18 @@ def maybe_contiguous(x):
         delta = mod_prep(o, do)
 
         if ctx.use_atomic:
-            kernel = flashattn_bwd_atomic_add(BATCH, H, N_CTX, D_HEAD_QK, D_HEAD_V, ctx.causal, block_M, block_N,
-                                              threads=256, num_stages=2, groups=groups)
+            kernel = flashattn_bwd_atomic_add(
+                BATCH,
+                H,
+                N_CTX,
+                D_HEAD_QK,
+                D_HEAD_V,
+                ctx.causal,
+                block_M,
+                block_N,
+                threads=256,
+                num_stages=2,
+                groups=groups)
             shape_q = [BATCH, N_CTX, H, D_HEAD_QK]
             shape_k = [BATCH, N_CTX, HEAD_KV, D_HEAD_QK]
             shape_v = [BATCH, N_CTX, HEAD_KV, D_HEAD_V]
@@ -402,8 +432,18 @@ def maybe_contiguous(x):
             dk = dk.to(torch.float16)
             dv = dv.to(torch.float16)
         else:
-            kernel = flashattn_bwd_split(BATCH, H, N_CTX, D_HEAD_QK, D_HEAD_V, ctx.causal, block_M, block_N,
-                                         threads=256, num_stages=2, groups=groups)
+            kernel = flashattn_bwd_split(
+                BATCH,
+                H,
+                N_CTX,
+                D_HEAD_QK,
+                D_HEAD_V,
+                ctx.causal,
+                block_M,
+                block_N,
+                threads=256,
+                num_stages=2,
+                groups=groups)
             shape_q = [BATCH, N_CTX, H, D_HEAD_QK]
             shape_k = [groups, BATCH, N_CTX, HEAD_KV, D_HEAD_QK]  # sum after kernel
             shape_v = [groups, BATCH, N_CTX, HEAD_KV, D_HEAD_V]  # sum after kernel
@@ -515,8 +555,10 @@ def run1():
     parser.add_argument('--d_head_v', type=int, default=128, help='Head dimension for V')
     parser.add_argument('--causal', action='store_true', help='Causal flag')
     parser.add_argument('--groups', type=int, default=16, help='groups')
-    parser.add_argument('--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
-    parser.add_argument('--use_split', action='store_true', default=False, help='Use split for dK/dV')
+    parser.add_argument(
+        '--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
+    parser.add_argument(
+        '--use_split', action='store_true', default=False, help='Use split for dK/dV')
     args = parser.parse_args()
 
     # Handle backward compatibility and logic
@@ -528,4 +570,5 @@ def run1():
         # Default: use atomic
         use_atomic = True
 
-    main(args.batch, args.h, args.n_ctx, args.d_head_qk, args.d_head_v, args.groups, args.causal, use_atomic)
+    main(args.batch, args.h, args.n_ctx, args.d_head_qk, args.d_head_v, args.groups, args.causal,
+         use_atomic)
@@ -149,7 +149,15 @@ def flash_bwd_post(
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_atomic_add(batch, heads, seq_len, dim, is_causal, block_M, block_N, threads=128, num_stages=2):
+def flashattn_bwd_atomic_add(batch,
+                             heads,
+                             seq_len,
+                             dim,
+                             is_causal,
+                             block_M,
+                             block_N,
+                             threads=128,
+                             num_stages=2):
     sm_scale = (1.0 / dim)**0.5
     scale = (1.0 / dim)**0.5 * 1.44269504  # log2(e)
     shape = [batch, seq_len, heads, dim]
@@ -226,17 +234,25 @@ def flash_bwd(
                     if k * block_N + i < seq_len:
                         T.atomic_add(dQ[bz, k * block_N + i, bx, j], dq[i, j])
             T.copy(dv, dv_shared)
-            T.atomic_add(dV[bz, by * block_M:(by+1) * block_M, bx, :], dv_shared)
+            T.atomic_add(dV[bz, by * block_M:(by + 1) * block_M, bx, :], dv_shared)
             T.copy(dk, dk_shared)
-            T.atomic_add(dK[bz, by * block_M:(by+1) * block_M, bx, :], dk_shared)
+            T.atomic_add(dK[bz, by * block_M:(by + 1) * block_M, bx, :], dk_shared)
 
     return flash_bwd
 
 
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_split(batch, heads, seq_len, dim, is_causal, block_M, block_N, threads=128, num_stages=2):
+def flashattn_bwd_split(batch,
+                        heads,
+                        seq_len,
+                        dim,
+                        is_causal,
+                        block_M,
+                        block_N,
+                        threads=128,
+                        num_stages=2):
     sm_scale = (1.0 / dim)**0.5
     scale = (1.0 / dim)**0.5 * 1.44269504  # log2(e)
     shape = [batch, seq_len, heads, dim]
@@ -353,8 +369,8 @@ def maybe_contiguous(x):
         delta = kernel_prep(o, do)
 
         if ctx.use_atomic:
-            kernel = flashattn_bwd_atomic_add(BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N,
-                                              threads=128, num_stages=2)
+            kernel = flashattn_bwd_atomic_add(
+                BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N, threads=128, num_stages=2)
             shape = [BATCH, N_CTX, H, D_HEAD]
             dq = torch.zeros(shape, dtype=torch.float32, device=q.device)
             dk = torch.zeros(shape, dtype=torch.float32, device=q.device)
@@ -364,8 +380,8 @@ def maybe_contiguous(x):
             dk = dk.to(torch.float16)
             dv = dv.to(torch.float16)
         else:
-            kernel = flashattn_bwd_split(BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N,
-                                         threads=128, num_stages=2)
+            kernel = flashattn_bwd_split(
+                BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N, threads=128, num_stages=2)
             shape = [BATCH, N_CTX, H, D_HEAD]
             dq = torch.zeros(shape, dtype=torch.float32, device=q.device)
             dk = torch.empty(shape, dtype=torch.float16, device=q.device)
@@ -453,8 +469,10 @@ def run1():
     parser.add_argument('--n_ctx', type=int, default=1024, help='Context size')
     parser.add_argument('--d_head', type=int, default=64, help='Head dimension')
     parser.add_argument('--causal', action='store_true', help='Causal flag')
-    parser.add_argument('--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
-    parser.add_argument('--use_split', action='store_true', default=False, help='Use split for dK/dV')
+    parser.add_argument(
+        '--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
+    parser.add_argument(
+        '--use_split', action='store_true', default=False, help='Use split for dK/dV')
     args = parser.parse_args()
 
     # Handle backward compatibility and logic
 
@@ -146,7 +146,15 @@ def flash_bwd_post(
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_atomic_add(batch, heads, seq_len, dim, is_causal, block_M, block_N, threads=256, num_stages=2):
+def flashattn_bwd_atomic_add(batch,
+                             heads,
+                             seq_len,
+                             dim,
+                             is_causal,
+                             block_M,
+                             block_N,
+                             threads=256,
+                             num_stages=2):
     sm_scale = (1.0 / dim)**0.5
     scale = (1.0 / dim)**0.5 * 1.44269504  # log2(e)
     shape = [batch, seq_len, heads, dim]
@@ -234,17 +242,25 @@ def flash_bwd(
                     if k * block_N + i < seq_len:
                         T.atomic_add(dQ[bz, k * block_N + i, bx, j], dq[i, j])
             T.copy(dv, dv_shared)
-            T.atomic_add(dV[bz, by * block_M:(by+1) * block_M, bx, :], dv_shared)
+            T.atomic_add(dV[bz, by * block_M:(by + 1) * block_M, bx, :], dv_shared)
             T.copy(dk, dk_shared)
-            T.atomic_add(dK[bz, by * block_M:(by+1) * block_M, bx, :], dk_shared)
+            T.atomic_add(dK[bz, by * block_M:(by + 1) * block_M, bx, :], dk_shared)
 
     return flash_bwd
 
 
 @tilelang.jit(pass_configs={
     tilelang.PassConfigKey.TL_ENABLE_FAST_MATH: True,
 })
-def flashattn_bwd_split(batch, heads, seq_len, dim, is_causal, block_M, block_N, threads=256, num_stages=2):
+def flashattn_bwd_split(batch,
+                        heads,
+                        seq_len,
+                        dim,
+                        is_causal,
+                        block_M,
+                        block_N,
+                        threads=256,
+                        num_stages=2):
     sm_scale = (1.0 / dim)**0.5
     scale = (1.0 / dim)**0.5 * 1.44269504  # log2(e)
     shape = [batch, seq_len, heads, dim]
@@ -374,8 +390,8 @@ def maybe_contiguous(x):
         delta = mod_prep(o, do)
 
         if ctx.use_atomic:
-            mod = flashattn_bwd_atomic_add(BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N,
-                                           threads=256, num_stages=2)
+            mod = flashattn_bwd_atomic_add(
+                BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N, threads=256, num_stages=2)
             shape = [BATCH, N_CTX, H, D_HEAD]
             dq = torch.zeros(shape, dtype=torch.float32, device=q.device)
             dk = torch.zeros(shape, dtype=torch.float32, device=q.device)
@@ -385,8 +401,8 @@ def maybe_contiguous(x):
             dk = dk.to(torch.float16)
             dv = dv.to(torch.float16)
         else:
-            mod = flashattn_bwd_split(BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N,
-                                      threads=256, num_stages=2)
+            mod = flashattn_bwd_split(
+                BATCH, H, N_CTX, D_HEAD, ctx.causal, block_M, block_N, threads=256, num_stages=2)
             shape = [BATCH, N_CTX, H, D_HEAD]
             dq = torch.zeros(shape, dtype=torch.float32, device=q.device)
             dk = torch.empty(shape, dtype=torch.float16, device=q.device)
@@ -474,8 +490,10 @@ def run1():
     parser.add_argument('--n_ctx', type=int, default=1024, help='Context size')
     parser.add_argument('--d_head', type=int, default=64, help='Head dimension')
     parser.add_argument('--causal', action='store_true', help='Causal flag')
-    parser.add_argument('--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
-    parser.add_argument('--use_split', action='store_true', default=False, help='Use split for dK/dV')
+    parser.add_argument(
+        '--use_atomic', action='store_true', default=False, help='Use atomic add for dK/dV')
+    parser.add_argument(
+        '--use_split', action='store_true', default=False, help='Use split for dK/dV')
     args = parser.parse_args()
 
     # Handle backward compatibility and logic