[BACKEND] BF16 atomic_add support

plotfi · plotfi · commit 54f2854d2b0e · 2025-05-01T10:20:27.000-07:00
This revives triton-lang#2708 to add support for atomics using BF16 types which are less precise but cheaper. BF16 accumulators have proven to be useful in the context of Split-K's where it is necessary to have cheaper atomic accumulation across two SMs. BF16 atomics are also needed for some of the AMD buffer atomics work (ie BufferAtomicRMWOp) as well a the need for a path to add unit tests for AMD's backend. BF16 atomics across A100, H100 and MI300 at: https://godbolt.org/z/jW3EMbxrG
diff --git a/python/test/unit/language/test_core.py b/python/test/unit/language/test_core.py
@@ -7436,3 +7436,23 @@ def _namedtuple_float_tuple_kernel():
         x, y = float('-inf'), float('inf')  # noqa: F841
 
     _namedtuple_float_tuple_kernel[(1, )]()
+
+
+@pytest.mark.interpreter
+@pytest.mark.skipif(not is_cuda(), reason="Not implemented for Interpreter")
+def test_bf16_atomics(device):
+
+    @triton.jit
+    def _kernel(src0, src1, dst, dst2):
+        offset = tl.load(src0, None)
+        val = tl.load(src1, None)
+        old = tl.atomic_add(dst + offset, val)
+        tl.store(dst2, old)
+
+    acc = torch.zeros(256, dtype=torch.bfloat16, device=device)
+    acc2 = torch.zeros(256, dtype=torch.bfloat16, device=device)
+    idx = torch.randint(0, 256, (16 << 20, ), device=device)
+    val = torch.ones(16 << 20, dtype=torch.bfloat16, device=device)
+
+    h = _kernel[(triton.cdiv(idx.numel(), 1024), )](idx, val, acc, acc2)
+    assert 'atomic_rmw' in h.asm["ttir"]
diff --git a/python/triton/language/semantic.py b/python/triton/language/semantic.py
@@ -1381,7 +1381,9 @@ def atom_red_typechecking_impl(ptr: tl.tensor, val: tl.tensor, mask: tl.tensor,
     element_ty = ptr.type.scalar.element_ty
     if element_ty is tl.float16 and op != 'add':
         raise ValueError("atomic_" + op + " does not support fp16")
-    if element_ty in [tl.int1, tl.int8, tl.int16, tl.bfloat16]:
+    if element_ty is tl.bfloat16 and op != 'add':
+        raise ValueError("atomic_" + op + " does not support bf16")
+    if element_ty in [tl.int1, tl.int8, tl.int16]:
         raise ValueError("atomic_" + op + " does not support " + str(element_ty))
     if ptr.type.is_block():
         if mask is not None:
diff --git a/test/TritonNvidiaGPU/bf16-atomics.mlir b/test/TritonNvidiaGPU/bf16-atomics.mlir
@@ -0,0 +1,42 @@
+// RUN: triton-opt %s --allocate-shared-memory --convert-triton-gpu-to-llvm | FileCheck %s
+
+// CHECK: llvm.atomicrmw fadd
+
+module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32,
+                   ttg.target = "cuda:80",
+                   "ttg.threads-per-warp" = 32 : i32} {
+  llvm.mlir.global external @global_smem() {addr_space = 3 : i32, alignment = 16 : i64} : !llvm.array<0 x i8>
+  tt.func public @triton_(%arg0: !tt.ptr<i64> {tt.divisibility = 16 : i32},
+                          %arg1: !tt.ptr<bf16> {tt.divisibility = 16 : i32},
+                          %arg2: !tt.ptr<bf16> {tt.divisibility = 16 : i32},
+                          %arg3: !tt.ptr<bf16> {tt.divisibility = 16 : i32}) attributes {noinline = false} {
+    %true = arith.constant true
+    %0 = tt.load %arg0 : !tt.ptr<i64>
+    %1 = tt.load %arg1 : !tt.ptr<bf16>
+    %2 = tt.addptr %arg2, %0 : !tt.ptr<bf16>, i64
+    %3 = tt.atomic_rmw fadd, acq_rel, gpu, %2, %1, %true {allocation.offset = 0 : i32} : (!tt.ptr<bf16>, bf16, i1) -> bf16
+    tt.store %arg3, %3 : !tt.ptr<bf16>
+    tt.return
+  }
+}
+
+
+// CHECK: atom.global.gpu.acq_rel.add.noftz.bf16
+
+module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32,
+                   ttg.target = "cuda:90",
+                   "ttg.threads-per-warp" = 32 : i32} {
+  llvm.mlir.global external @global_smem() {addr_space = 3 : i32, alignment = 16 : i64} : !llvm.array<0 x i8>
+  tt.func public @triton_(%arg0: !tt.ptr<i64> {tt.divisibility = 16 : i32},
+                          %arg1: !tt.ptr<bf16> {tt.divisibility = 16 : i32},
+                          %arg2: !tt.ptr<bf16> {tt.divisibility = 16 : i32},
+                          %arg3: !tt.ptr<bf16> {tt.divisibility = 16 : i32}) attributes {noinline = false} {
+    %true = arith.constant true
+    %0 = tt.load %arg0 : !tt.ptr<i64>
+    %1 = tt.load %arg1 : !tt.ptr<bf16>
+    %2 = tt.addptr %arg2, %0 : !tt.ptr<bf16>, i64
+    %3 = tt.atomic_rmw fadd, acq_rel, gpu, %2, %1, %true {allocation.offset = 0 : i32} : (!tt.ptr<bf16>, bf16, i1) -> bf16
+    tt.store %arg3, %3 : !tt.ptr<bf16>
+    tt.return
+  }
+}
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -887,6 +887,81 @@ struct AtomicRMWOpConversion
         continue;
       }
 
+      // Let LLVM handle compare+swap loop; branch-based pred should be fine
+      if (valueElemTy.isBF16() && getNVIDIAComputeCapability(moduleOp) < 90) {
+        auto llvmAtomicBinOp = matchAtomicOp(atomicRmwAttr);
+        auto llvmAtomicMemOrdering = getMemoryOrdering(op.getSem());
+
+        // Create basic block and branch to handle mask
+        auto *curBlock = rewriter.getInsertionBlock();
+        auto *endBlock = curBlock->splitBlock(rewriter.getInsertionPoint());
+        auto *atomicBlock = rewriter.createBlock(
+            curBlock->getParent(), std::next(Region::iterator(curBlock)));
+
+        // Enter into predicate block
+        rewriter.setInsertionPointToEnd(curBlock);
+        // Setup for SMEM Sync case
+        Value atomPtr =
+            tensorTy ? nullptr
+                     : LLVM::getSharedMemoryBase(loc, rewriter, targetInfo,
+                                                 op.getOperation());
+        rewriter.create<LLVM::CondBrOp>(loc, pred, atomicBlock, endBlock);
+
+        // Codegen the atomic-rmw instruction(s)
+        rewriter.setInsertionPointToEnd(atomicBlock);
+        Value atom = rewriter
+                         .create<LLVM::AtomicRMWOp>(
+                             loc, *llvmAtomicBinOp, rmwPtr, valElements[i],
+                             *llvmAtomicMemOrdering, StringRef("agent"))
+                         .getResult();
+        // Handle the 2 bf16 case
+        if (packed == 2 && valueElemNBits == 16) {
+          Value atom2 = rewriter
+                            .create<LLVM::AtomicRMWOp>(
+                                loc, *llvmAtomicBinOp, ptrElements[i + 1],
+                                valElements[i + 1], *llvmAtomicMemOrdering,
+                                StringRef("agent"))
+                            .getResult();
+          auto vecTy = vec_ty(valueElemTy, vec);
+          auto tmp =
+              b.insert_element(vecTy, b.undef(vecTy), atom, b.i32_val(0));
+          atom = b.insert_element(vecTy, tmp, atom2, b.i32_val(1)).getResult();
+        }
+
+        if (tensorTy) {
+          // Return from predicated block
+          rewriter.create<LLVM::BrOp>(loc, endBlock);
+
+          // Recover values from predicated block
+          rewriter.setInsertionPointToStart(endBlock);
+          Value ret = atom;
+          if (vec > 1) {
+            for (unsigned ii = 0; ii < vec; ++ii) {
+              resultVals[i + ii] = b.extract_val(valueElemTy, ret, ii);
+            }
+          } else if (packed > 1) {
+            for (unsigned ii = 0; ii < packed; ++ii) {
+              resultVals[i + ii] =
+                  b.extract_element(valueElemTy, ret, b.i32_val(ii));
+            }
+          } else {
+            resultVals[i] = ret;
+          }
+        } else {
+          // Commit values from predicated block to SMEM and return from
+          // predicate block
+          b.store(atom, atomPtr);
+          rewriter.create<LLVM::BrOp>(loc, endBlock);
+
+          // Recover values from predicated block (from SMEM)
+          rewriter.setInsertionPointToStart(endBlock);
+          b.barrier();
+          Value ret = b.load(valueElemTy, atomPtr);
+          rewriter.replaceOp(op, {ret});
+        }
+        continue;
+      }
+
       std::string sTy;
       PTXBuilder ptxBuilderAtomicRMW;
       // 16-bit -> "h", 32-bit -> "r", 64-bit -> "l"
@@ -944,7 +1019,7 @@ struct AtomicRMWOpConversion
       case RMWOp::FADD:
         rmwOp = "add";
         rmwOp += (valueElemNBits == 16 ? ".noftz" : "");
-        sTy = "f" + sBits;
+        sTy = (valueElemTy.isBF16() ? "bf" : "f") + sBits;
         sTy += (packed == 2 && valueElemNBits == 16) ? "x2" : "";
         break;
       case RMWOp::MAX: