AnnaTrainingG
diff --git a/‎csrc/capi/flash_attn.cu‎
Lines changed: 131 additions & 94 deletions b/‎csrc/capi/flash_attn.cu‎
Lines changed: 131 additions & 94 deletions
diff --git a/‎csrc/capi/flash_attn.h‎
Lines changed: 16 additions & 4 deletions b/‎csrc/capi/flash_attn.h‎
Lines changed: 16 additions & 4 deletions
diff --git a/‎csrc/flash_attn/src/flash.h‎
Lines changed: 6 additions & 0 deletions b/‎csrc/flash_attn/src/flash.h‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎csrc/flash_attn/src/flash_bwd_kernel.h‎
Lines changed: 31 additions & 5 deletions b/‎csrc/flash_attn/src/flash_bwd_kernel.h‎
Lines changed: 31 additions & 5 deletions
diff --git a/‎csrc/flash_attn/src/flash_bwd_launch_template.h‎
Lines changed: 13 additions & 10 deletions b/‎csrc/flash_attn/src/flash_bwd_launch_template.h‎
Lines changed: 13 additions & 10 deletions
@@ -26,12 +26,15 @@ bool flash_attn_fwd(const void * const q,         // batch_size x seqlen_q x num
                     const int head_size_rounded,
                     const float p_dropout,
                     const float softmax_scale,
+                    const float softmax_unscale,
                     const bool is_causal,
                     const bool return_softmax,
                     const bool is_bf16,
                     cudaStream_t stream,
                     uint64_t seed,
-                    uint64_t offset);
+                    uint64_t offset,
+                    const void * const attn_mask,
+                    const int64_t * const mask_dims);
 
 bool flash_attn_varlen_fwd(const void * const q,  // total_q x num_heads x head_size, total_q := \sum_{i=0}^{b} s_i
                            const void * const k,  // total_k x num_heads_k x head_size, total_k := \sum_{i=0}^{b} s_i
@@ -53,12 +56,15 @@ bool flash_attn_varlen_fwd(const void * const q,  // total_q x num_heads x head_
                            const int head_size_rounded,
                            const float p_dropout,
                            const float softmax_scale,
+                           const float softmax_unscale,
                            const bool is_causal,
                            const bool return_softmax,
                            const bool is_bf16,
                            cudaStream_t stream,
                            uint64_t seed,
-                           uint64_t offset);
+                           uint64_t offset,
+                           const void * const attn_mask,
+                           const void * const mask_dims);
 
 bool flash_attn_bwd(const void * const dout,  // batch_size x seqlen_q x num_heads, x head_size_og
                     const void * const q,   // batch_size x seqlen_q x num_heads x head_size
@@ -83,12 +89,15 @@ bool flash_attn_bwd(const void * const dout,  // batch_size x seqlen_q x num_hea
                     const int head_size_rounded,
                     const float p_dropout,         // probability to drop
                     const float softmax_scale,
+                    const float softmax_unscale,
                     const bool is_causal,
                     const bool is_bf16,
                     const int num_splits,
                     cudaStream_t stream,
                     uint64_t seed,
-                    uint64_t offset);
+                    uint64_t offset,
+                    const void * const attn_mask,
+                    const int64_t * const mask_dims);
 
 bool flash_attn_varlen_bwd(const void * const dout,  // total_q x num_heads, x head_size
                            const void * const q,   // total_q x num_heads x head_size, total_q := \sum_{i=0}^{b} s_i
@@ -115,12 +124,15 @@ bool flash_attn_varlen_bwd(const void * const dout,  // total_q x num_heads, x h
                            const int head_size_rounded,
                            const float p_dropout,         // probability to drop
                            const float softmax_scale,
+                           const float softmax_unscale,
                            const bool is_causal,
                            const bool is_bf16,
                            const int num_splits,
                            cudaStream_t stream,
                            uint64_t seed,
-                           uint64_t offset);
+                           uint64_t offset,
+                           const void * attn_mask,
+                           const int64_t * const mask_dims);
 
 bool flash_attn_fwd_with_bias_and_mask(const void *q,              // total_q x num_heads x head_size, total_q := \sum_{i=0}^{b} s_i
                                        const void *k,              // total_k x num_heads x head_size, total_k := \sum_{i=0}^{b} s_i
 
@@ -76,6 +76,7 @@ struct Flash_fwd_params : public Qkv_params {
     // The scaling factors for the kernel.
     float scale_softmax;
     float scale_softmax_log2;
+    float unscale_softmax;
 
     // array of length b+1 holding starting offset of each sequence.
     int * __restrict__ cu_seqlens_q;
@@ -101,6 +102,11 @@ struct Flash_fwd_params : public Qkv_params {
 
     bool is_bf16;
     bool is_causal;
+
+    // The attn mask matrix
+    void * __restrict__ attn_mask_ptr;
+    int mask_head_mod_size;
+    int mask_seq_q_mod_size;
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -424,7 +424,7 @@ inline __device__ void convert_dKV(const Params &params) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K, bool Is_first, bool Is_last, bool Seq_parallel=false, typename Params>
+template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K, bool Is_first, bool Is_last, bool Is_attn_mask, bool Seq_parallel=false, typename Params>
 inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const int bidb, const int bidh, const int n_block) {
 
     using Element = typename Kernel_traits::Element;
@@ -448,7 +448,13 @@ inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const in
     const BlockInfo</*Varlen=*/!Is_even_MN> binfo(params, bidb);
     if (n_block * kBlockN >= binfo.actual_seqlen_k || binfo.actual_seqlen_q == 0) return;
 
-    int m_block_max = cute::ceil_div(binfo.actual_seqlen_q, kBlockM);
+    // umiswing: residue is for predication of additional mask gmem access.
+    // Additional mask for varlen qkv is supported, but a varlen mask is not supported.
+    const int m_residue = params.seqlen_q % kBlockM ? params.seqlen_q % kBlockM : kBlockM;
+    const int n_residue = params.seqlen_k % kBlockN ? params.seqlen_k % kBlockN : kBlockN;
+
+    const int m_block_max = cute::ceil_div(binfo.actual_seqlen_q, kBlockM);
+    const int n_block_max = cute::ceil_div(binfo.actual_seqlen_k, kBlockN);
 
     const index_t row_offset_q = binfo.q_offset(params.q_batch_stride, params.q_row_stride, bidb)
         + (m_block_max - 1) * kBlockM * params.q_row_stride + bidh * params.q_head_stride;
@@ -469,6 +475,11 @@ inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const in
     const index_t row_offset_dpsum = (bidb * params.h + bidh) * params.seqlen_q_rounded
         + (m_block_max - 1) * kBlockM;
 
+    const index_t row_offset_mask = ((bidb * params.mask_head_mod_size
+        + (bidh % params.mask_head_mod_size)) * params.mask_seq_q_mod_size
+        + ((m_block_max - 1) * kBlockM % params.mask_seq_q_mod_size)) * params.seqlen_k
+        + n_block * kBlockN;
+
     Tensor gQ = make_tensor(make_gmem_ptr(reinterpret_cast<Element *>(params.q_ptr) + row_offset_q),
                             Shape<Int<kBlockM>, Int<kHeadDim>>{},
                             make_stride(params.q_row_stride, _1{}));
@@ -494,6 +505,9 @@ inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const in
                               Shape<Int<kBlockM>>{}, Stride<_1>{});
     Tensor gdPsum = make_tensor(make_gmem_ptr(reinterpret_cast<ElementAccum *>(params.dsoftmax_sum) + row_offset_dpsum),
                                 Shape<Int<kBlockM>>{}, Stride<_1>{});
+    Tensor gMask = make_tensor(make_gmem_ptr(reinterpret_cast<Element *>(params.attn_mask_ptr) + row_offset_mask),
+                               Shape<Int<kBlockM>, Int<kBlockN>>{},
+                               make_stride(params.seqlen_k, _1{}));
 
     Tensor sQ = make_tensor(make_smem_ptr(reinterpret_cast<Element *>(smem_)),
                             typename Kernel_traits::SmemLayoutQdO{});
@@ -558,6 +572,11 @@ inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const in
     // }
 
     typename Kernel_traits::TiledMmaSdP tiled_mma_sdp;
+    auto gmem_thr_copy_P = make_tiled_copy_C_warpcontiguousN<MMA_N_SdP>(typename Kernel_traits::SmemCopyAtomPdS{}, tiled_mma_sdp).get_thread_slice(tidx);
+    Tensor tPgMask = gmem_thr_copy_P.partition_D(gMask);
+    Tensor cMask = make_identity_tensor(shape(gMask));
+    Tensor tPcMask = gmem_thr_copy_P.partition_D(cMask);
+
     auto thr_mma_sdp = tiled_mma_sdp.get_thread_slice(tidx);
     Tensor tSrQ = thr_mma_sdp.partition_fragment_A(sQ);         // (MMA,MMA_N,MMA_K)
     Tensor tSrK = thr_mma_sdp.partition_fragment_B(sK);         // (MMA,MMA_N,MMA_K)
@@ -813,6 +832,13 @@ inline __device__ void compute_dq_dk_dv_1colblock(const Params &params, const in
         // However, it's possible that the values in acc_s are so large that they overflow
         // when we multiply with dP and convert to fp16, resulting in Inf in dS and NaNs in dQ.
         // So we need to mask out the elements beyond actual_seqlen_k.
+        if (Is_attn_mask) {
+            flash::apply_attn_mask<Kernel_traits::TiledMmaSdP>(scores, tPgMask, tPcMask,
+                                                               m_block == m_block_max - 1 ? m_residue : params.seqlen_q,
+                                                               n_block == n_block_max - 1 ? n_residue : params.seqlen_k,
+                                                               params.unscale_softmax);
+            tPgMask.data() = tPgMask.data() + (-kBlockM * params.seqlen_k);
+        }
         if (!Is_causal) {
             if (!Is_even_MN && (n_block + 1) * kBlockN >= binfo.actual_seqlen_k) {
                 flash::apply_mask(scores, binfo.actual_seqlen_k,
@@ -1550,7 +1576,7 @@ inline __device__ void compute_dq_dk_dv(const Params &params) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K, typename Params>
+template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K, bool Is_attn_mask, typename Params>
 inline __device__ void compute_dq_dk_dv_seqk_parallel(const Params &params) {
 
     const int n_block = blockIdx.x;
@@ -1562,11 +1588,11 @@ inline __device__ void compute_dq_dk_dv_seqk_parallel(const Params &params) {
     if (params.num_splits == 1) {  // means grid.x = 1, blockIdx.x = 0;
         int loop_step_x = 0;
         for(int i = 0; i < params.seqlen_k; i+= kBlockN) {
-           compute_dq_dk_dv_1colblock<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K, false, false, /*Seq_parallel=*/true>(params, bidb, bidh, loop_step_x);
+           compute_dq_dk_dv_1colblock<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K, false, false, Is_attn_mask, /*Seq_parallel=*/true>(params, bidb, bidh, loop_step_x);
            loop_step_x += 1;
         }
     } else {
-        compute_dq_dk_dv_1colblock<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K, false, false, /*Seq_parallel=*/true>(params, bidb, bidh, n_block);
+        compute_dq_dk_dv_1colblock<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K, false, false, Is_attn_mask, /*Seq_parallel=*/true>(params, bidb, bidh, n_block);
     }
 }
 
 
@@ -26,9 +26,9 @@ __global__ void flash_bwd_dq_dk_dv_loop_kernel(Flash_bwd_params params) {
     flash::compute_dq_dk_dv<Kernel_traits, Is_dropout, Is_causal, Is_even_M, Is_even_K>(params);
 }
 
-template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K>
+template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_MN, bool Is_even_K, bool Is_attn_mask>
 __global__ void flash_bwd_dq_dk_dv_loop_seqk_parallel_kernel(Flash_bwd_params params) {
-    flash::compute_dq_dk_dv_seqk_parallel<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K>(params);
+    flash::compute_dq_dk_dv_seqk_parallel<Kernel_traits, Is_dropout, Is_causal, Is_even_MN, Is_even_K, Is_attn_mask>(params);
 }
 
 template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_even_N, bool Is_even_K>
@@ -61,18 +61,21 @@ void run_flash_bwd_seqk_parallel(Flash_bwd_params &params, cudaStream_t stream,
     const bool is_even_MN = params.cu_seqlens_q == nullptr && params.cu_seqlens_k == nullptr && params.seqlen_q % Kernel_traits::kBlockM == 0 && params.seqlen_k % Kernel_traits::kBlockN == 0;
     const bool is_even_K = params.d == Kernel_traits::kHeadDim;
     constexpr int smem_size_dq_dk_dv = Kernel_traits::kSmemSize1colblock;
+    const bool is_attn_mask = params.attn_mask_ptr != nullptr;
     // printf("smem_size_dq_dk_dv = %d\n", smem_size_dq_dk_dv);
     BOOL_SWITCH(params.is_causal, IsCausalConst, [&] {
         BOOL_SWITCH(is_even_MN, IsEvenMNConst, [&] {
             BOOL_SWITCH(is_even_K, IsEvenKConst, [&] {
-                auto kernel = &flash_bwd_dq_dk_dv_loop_seqk_parallel_kernel<Kernel_traits, Is_dropout, IsCausalConst, IsEvenMNConst, IsEvenKConst>;
-                // auto kernel = &flash_bwd_dq_dk_dv_loop_seqk_parallel_kernel<Kernel_traits, Is_dropout, IsCausalConst, IsEvenMNConst, true>;
-                if (smem_size_dq_dk_dv >= 48 * 1024)  {
-                    C10_CUDA_CHECK(cudaFuncSetAttribute(
-                        kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size_dq_dk_dv));
-                }
-                kernel<<<grid_n, Kernel_traits::kNThreads, smem_size_dq_dk_dv, stream>>>(params);
-                C10_CUDA_KERNEL_LAUNCH_CHECK();
+                BOOL_SWITCH(is_attn_mask, Is_attn_mask, [&] {
+                    auto kernel = &flash_bwd_dq_dk_dv_loop_seqk_parallel_kernel<Kernel_traits, Is_dropout, IsCausalConst, IsEvenMNConst, IsEvenKConst, Is_attn_mask && !IsCausalConst>;
+                    // auto kernel = &flash_bwd_dq_dk_dv_loop_seqk_parallel_kernel<Kernel_traits, Is_dropout, IsCausalConst, IsEvenMNConst, true>;
+                    if (smem_size_dq_dk_dv >= 48 * 1024)  {
+                        C10_CUDA_CHECK(cudaFuncSetAttribute(
+                            kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size_dq_dk_dv));
+                    }
+                    kernel<<<grid_n, Kernel_traits::kNThreads, smem_size_dq_dk_dv, stream>>>(params);
+                    C10_CUDA_KERNEL_LAUNCH_CHECK();
+                });
             });
         });
     });