tile-ai
diff --git a/‎examples/attention_sink/example_gqa_sink_fwd_bhsd_wgmma_pipelined.py‎
Lines changed: 3 additions & 3 deletions b/‎examples/attention_sink/example_gqa_sink_fwd_bhsd_wgmma_pipelined.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/attention_sink/example_mha_sink_fwd_bhsd.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/attention_sink/example_mha_sink_fwd_bhsd.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/attention_sink/example_mha_sink_fwd_bhsd_wgmma_pipelined.py‎
Lines changed: 3 additions & 3 deletions b/‎examples/attention_sink/example_mha_sink_fwd_bhsd_wgmma_pipelined.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/op/atomic_add.cc‎
Lines changed: 1 addition & 4 deletions b/‎src/op/atomic_add.cc‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎src/op/builtin.cc‎
Lines changed: 1 addition & 0 deletions b/‎src/op/builtin.cc‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/op/builtin.h‎
Lines changed: 14 additions & 0 deletions b/‎src/op/builtin.h‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎src/tl_templates/cuda/atomic.h‎
Lines changed: 189 additions & 0 deletions b/‎src/tl_templates/cuda/atomic.h‎
Lines changed: 189 additions & 0 deletions
@@ -366,9 +366,9 @@ def gen_inputs(B, H, Sq, Skv, D,
 
 def main(
     batch: int = 1,
-    heads: int = 64,
-    seq_q: int = 4096,
-    seq_kv: int = 4096,
+    heads: int = 32,
+    seq_q: int = 256,
+    seq_kv: int = 256,
     dim: int = 128,
     groups: int = 8,
     window_size: int | None = None,
 
@@ -229,10 +229,10 @@ def gen_inputs(B, H, Sq, Skv, D) -> tuple[torch.Tensor, torch.Tensor, torch.Tens
     return query, key, value, sinks
 
 
-def main(batch: int = 8,
-         heads: int = 32,
-         seq_q: int = 4096,
-         seq_kv: int = 4096,
+def main(batch: int = 1,
+         heads: int = 1,
+         seq_q: int = 256,
+         seq_kv: int = 256,
          dim: int = 128,
          window_size: int | None = None,
          tune: bool = False):
 
@@ -354,10 +354,10 @@ def gen_inputs(B, H, Sq, Skv, D) -> tuple[torch.Tensor, torch.Tensor, torch.Tens
     return query, key, value, sinks
 
 
-def main(batch: int = 8,
+def main(batch: int = 1,
          heads: int = 32,
-         seq_q: int = 4096,
-         seq_kv: int = 4096,
+         seq_q: int = 256,
+         seq_kv: int = 256,
          dim: int = 128,
          window_size: int | None = None,
          tune: bool = False):
 
@@ -293,10 +293,7 @@ For AtomicAddNode::MakeSIMTLoop(arith::Analyzer *analyzer) const {
   if (dst_predicate.defined())
     dst_value = if_then_else(dst_predicate, dst_value, make_zero(dst->dtype));
 
-  Call address_of_value =
-      tvm::tir::Call(DataType::Handle(), builtin::address_of(), {dst_value});
-
-  new_args.push_back(address_of_value);
+  new_args.push_back(dst_value);
   new_args.push_back(src_value);
 
   Call atomicadd_call =
 
@@ -20,6 +20,7 @@ TVM_REGISTER_PASS_CONFIG_OPTION(kDebugMergeSharedMemoryAllocations, Bool);
 TVM_REGISTER_PASS_CONFIG_OPTION(kDisableTMALower, Bool);
 TVM_REGISTER_PASS_CONFIG_OPTION(kDisableSafeMemoryLegalize, Bool);
 TVM_REGISTER_PASS_CONFIG_OPTION(kDisableWarpSpecialized, Bool);
+TVM_REGISTER_PASS_CONFIG_OPTION(kDisableThreadStorageSync, Bool);
 TVM_REGISTER_PASS_CONFIG_OPTION(kConfigIndexBitwidth, Integer);
 TVM_REGISTER_PASS_CONFIG_OPTION(kDisableDynamicTailSplit, Bool);
 TVM_REGISTER_PASS_CONFIG_OPTION(kDynamicAlignment, Integer);
 
@@ -55,6 +55,20 @@ static constexpr const char *kDisableShuffleElect = "tl.disable_shuffle_elect";
 static constexpr const char *kDisableDynamicTailSplit =
     "tl.disable_dynamic_tail_split";
 
+/*!
+ * \brief Whether to disable thread storage synchronization
+ *
+ * When enabled, disables the automatic insertion of thread synchronization
+ * barriers (e.g., __syncthreads()) for shared memory access coordination.
+ * This can be useful for performance optimization in cases where manual
+ * synchronization is preferred or when synchronization is not needed.
+ *
+ * kDisableThreadStorageSync = "tl.disable_thread_storage_sync"
+ *
+ */
+static constexpr const char *kDisableThreadStorageSync =
+    "tl.disable_thread_storage_sync";
+
 /*!
  * \brief The size of the vectorized dimension in buffer, designed by user
  *
 
@@ -0,0 +1,189 @@
+#pragma once
+
+#ifndef __CUDACC_RTC__
+#include <cuda_runtime.h>
+#endif
+
+#include <cuda/atomic>
+#include <cutlass/numeric_types.h>
+
+using cutlass::bfloat16_t;
+using cutlass::half_t;
+
+#define TL_DEVICE __forceinline__ __device__
+
+template <typename T> struct normalize_atomic_type {
+  using type = T;
+};
+
+template <> struct normalize_atomic_type<half_t> {
+  using type = half;
+};
+
+#if (defined(__CUDA_ARCH_LIST__) && (__CUDA_ARCH_LIST__ > 750))
+template <> struct normalize_atomic_type<bfloat16_t> {
+  using type = __nv_bfloat16;
+};
+#endif
+
+template <typename T1, typename T2> TL_DEVICE T1 cuda_cast(T2 val) {
+  return T1(val);
+}
+
+template <> TL_DEVICE half cuda_cast<half, float>(float val) {
+  return __float2half(val);
+}
+
+#if (defined(__CUDA_ARCH_LIST__) && (__CUDA_ARCH_LIST__ > 750))
+template <> TL_DEVICE __nv_bfloat16 cuda_cast<__nv_bfloat16, float>(float val) {
+  return __float2bfloat16(val);
+}
+#endif
+
+template <typename T1, typename T2>
+TL_DEVICE void AtomicMax(T1 &ref, T2 val,
+                         int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    atomicMax(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    aref.fetch_max(cuda_cast<NT1>(val), cuda::memory_order(memory_order));
+  }
+}
+
+template <typename T1, typename T2>
+TL_DEVICE T1 AtomicMaxRet(T1 &ref, T2 val,
+                          int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    return static_cast<T1>(
+        atomicMax(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val)));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    return static_cast<T1>(
+        aref.fetch_max(cuda_cast<NT1>(val), cuda::memory_order(memory_order)));
+  }
+}
+
+template <typename T1, typename T2>
+TL_DEVICE void AtomicMin(T1 &ref, T2 val,
+                         int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    atomicMin(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    aref.fetch_min(cuda_cast<NT1>(val), cuda::memory_order(memory_order));
+  }
+}
+
+template <typename T1, typename T2>
+TL_DEVICE T1 AtomicMinRet(T1 &ref, T2 val,
+                          int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    return static_cast<T1>(
+        atomicMin(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val)));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    return static_cast<T1>(
+        aref.fetch_min(cuda_cast<NT1>(val), cuda::memory_order(memory_order)));
+  }
+}
+
+template <typename T1, typename T2>
+TL_DEVICE void AtomicAdd(T1 &ref, T2 val,
+                         int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    atomicAdd(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    aref.fetch_add(cuda_cast<NT1>(val), cuda::memory_order(memory_order));
+  }
+}
+
+template <typename T1, typename T2>
+TL_DEVICE T1 AtomicAddRet(T1 &ref, T2 val,
+                          int memory_order = int(cuda::memory_order_relaxed)) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  T1 *address = &ref;
+  if constexpr (std::is_same_v<NT1, half> ||
+                std::is_same_v<NT1, __nv_bfloat16>) {
+    return static_cast<T1>(
+        atomicAdd(reinterpret_cast<NT1 *>(address), static_cast<NT1>(val)));
+  } else {
+    cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(*address);
+    return static_cast<T1>(
+        aref.fetch_add(cuda_cast<NT1>(val), cuda::memory_order(memory_order)));
+  }
+}
+
+TL_DEVICE void AtomicAddx2(half_t *ref, half_t *val) {
+  atomicAdd(reinterpret_cast<half2 *>(ref),
+            static_cast<half2>(*reinterpret_cast<half2 *>(val)));
+}
+
+TL_DEVICE half2 AtomicAddx2Ret(half_t *ref, half_t *val) {
+  return atomicAdd(reinterpret_cast<half2 *>(ref),
+                   static_cast<half2>(*reinterpret_cast<half2 *>(val)));
+}
+
+#if (defined(__CUDA_ARCH_LIST__) && (__CUDA_ARCH_LIST__ > 750))
+TL_DEVICE void AtomicAddx2(bfloat16_t *ref, bfloat16_t *val) {
+  atomicAdd(
+      reinterpret_cast<__nv_bfloat162 *>(ref),
+      static_cast<__nv_bfloat162>(*reinterpret_cast<__nv_bfloat162 *>(val)));
+}
+
+TL_DEVICE __nv_bfloat162 AtomicAddx2Ret(bfloat16_t *ref, bfloat16_t *val) {
+  return atomicAdd(
+      reinterpret_cast<__nv_bfloat162 *>(ref),
+      static_cast<__nv_bfloat162>(*reinterpret_cast<__nv_bfloat162 *>(val)));
+}
+#endif
+
+#if (defined(__CUDA_ARCH_LIST__) && (__CUDA_ARCH_LIST__ >= 900))
+TL_DEVICE void AtomicAddx2(float *ref, float *val) {
+  atomicAdd(reinterpret_cast<float2 *>(ref),
+            static_cast<float2>(*reinterpret_cast<float2 *>(val)));
+}
+
+TL_DEVICE float2 AtomicAddx2Ret(float *ref, float *val) {
+  return atomicAdd(reinterpret_cast<float2 *>(ref),
+                   static_cast<float2>(*reinterpret_cast<float2 *>(val)));
+}
+
+TL_DEVICE void AtomicAddx4(float *ref, float *val) {
+  atomicAdd(reinterpret_cast<float4 *>(ref),
+            static_cast<float4>(*reinterpret_cast<float4 *>(val)));
+}
+
+TL_DEVICE float4 AtomicAddx4Ret(float *ref, float *val) {
+  return atomicAdd(reinterpret_cast<float4 *>(ref),
+                   static_cast<float4>(*reinterpret_cast<float4 *>(val)));
+}
+#endif
+
+template <typename T> TL_DEVICE T AtomicLoad(T &ref, int memory_order) {
+  cuda::atomic_ref<T, cuda::thread_scope_device> aref(ref);
+  return aref.load(cuda::memory_order(memory_order));
+}
+
+template <typename T1, typename T2>
+TL_DEVICE void AtomicStore(T1 &ref, T2 value, int memory_order) {
+  using NT1 = typename normalize_atomic_type<T1>::type;
+  cuda::atomic_ref<NT1, cuda::thread_scope_device> aref(ref);
+  aref.store(cuda_cast<NT1>(value), cuda::memory_order(memory_order));
+}