Merge pull request apache#48 from vinx13/vllm-fp8

masahi · web-flow · commit 1fa1c24308e5 · 2024-02-24T08:37:53.000+09:00
Add fp8 fused dequant-paged-attention in vllm
diff --git a/cmake/config.cmake b/cmake/config.cmake
@@ -442,3 +442,5 @@ set(USE_UMA OFF)
 
 # Set custom Alloc Alignment for device allocated memory ndarray points to
 set(USE_KALLOC_ALIGNMENT 64)
+
+set(USE_CUDA_FP8 OFF)
diff --git a/cmake/modules/CUDA.cmake b/cmake/modules/CUDA.cmake
@@ -109,6 +109,11 @@ if(USE_CUDA)
   # Add CUDA builtins to RelaxVM
   tvm_file_glob(GLOB RELAX_VM_CUDA_BUILTIN_SRC_CC src/runtime/relax_vm/cuda/*.cc)
   list(APPEND RUNTIME_SRCS ${RELAX_VM_CUDA_BUILTIN_SRC_CC})
+
+  if (USE_CUDA_FP8)
+    message(STATUS "Build with CUDA FP8 support")
+    add_definitions(-DUSE_CUDA_FP8=1)
+  endif()
 else(USE_CUDA)
   list(APPEND COMPILER_SRCS src/target/opt/build_cuda_off.cc)
 endif(USE_CUDA)
diff --git a/cmake/modules/LibInfo.cmake b/cmake/modules/LibInfo.cmake
@@ -138,6 +138,7 @@ function(add_lib_info src_file)
     TVM_INFO_USE_MSC="${USE_MSC}"
     TVM_INFO_USE_CCACHE="${USE_CCACHE}"
     TVM_INFO_BACKTRACE_ON_SEGFAULT="${BACKTRACE_ON_SEGFAULT}"
+    TVM_INFO_USE_CUDA_FP8="${USE_CUDA_FP8}"
   )
 
 endfunction()
diff --git a/src/runtime/contrib/vllm/attention_kernels.cu b/src/runtime/contrib/vllm/attention_kernels.cu
diff --git a/src/runtime/contrib/vllm/cache_alloc.cc b/src/runtime/contrib/vllm/cache_alloc.cc
@@ -25,22 +25,22 @@ namespace runtime {
 namespace vllm {
 
 Array<NDArray> AllocateKVCache(int head_size, int num_layers, int num_heads, int block_size,
-                               int num_blocks) {
+                               int num_blocks, tvm::runtime::DataType kv_cache_dtype) {
+  CHECK(kv_cache_dtype.is_float16() || kv_cache_dtype.is_float8())
+      << "Unsupported data type for kv_cache: " << kv_cache_dtype;
   Array<NDArray> cache;
-  int element_size = 2;
+  int element_size = kv_cache_dtype.bits() / 8;
   int vec_size = 16 / element_size;
-
   int device_id;
   cudaGetDevice(&device_id);
 
   DLDevice dev{DLDeviceType::kDLCUDA, device_id};
 
   for (int i = 0; i < num_layers; ++i) {
-    NDArray key_blocks =
-        NDArray::Empty({num_blocks, num_heads, head_size / vec_size, block_size, vec_size},
-                       runtime::DataType::Float(16), dev);
-    NDArray value_blocks = NDArray::Empty({num_blocks, num_heads, head_size, block_size},
-                                          runtime::DataType::Float(16), dev);
+    NDArray key_blocks = NDArray::Empty(
+        {num_blocks, num_heads, head_size / vec_size, block_size, vec_size}, kv_cache_dtype, dev);
+    NDArray value_blocks =
+        NDArray::Empty({num_blocks, num_heads, head_size, block_size}, kv_cache_dtype, dev);
     cache.push_back(key_blocks);
     cache.push_back(value_blocks);
   }
diff --git a/src/runtime/contrib/vllm/cache_kernels.cu b/src/runtime/contrib/vllm/cache_kernels.cu
@@ -25,14 +25,17 @@
 #include <map>
 #include <vector>
 
+#include "quant_utils.cuh"
+
 namespace vllm {
 
-template <typename scalar_t>
+template <typename scalar_t, typename cache_t = scalar_t,
+          KVCacheDType kv_cache_dtype = KVCacheDType::kFloat>
 __global__ void reshape_and_cache_kernel(
     const scalar_t* __restrict__ key,      // [num_tokens, num_heads, head_size]
     const scalar_t* __restrict__ value,    // [num_tokens, num_heads, head_size]
-    scalar_t* __restrict__ key_cache,      // [num_blocks, num_heads, head_size/x, block_size, x]
-    scalar_t* __restrict__ value_cache,    // [num_blocks, num_heads, head_size, block_size]
+    cache_t* __restrict__ key_cache,       // [num_blocks, num_heads, head_size/x, block_size, x]
+    cache_t* __restrict__ value_cache,     // [num_blocks, num_heads, head_size, block_size]
     const int* __restrict__ slot_mapping,  // [num_tokens]
     const int key_stride, const int value_stride, const int num_heads, const int head_size,
     const int block_size, const int x) {
@@ -57,18 +60,35 @@ __global__ void reshape_and_cache_kernel(
     const int tgt_value_idx = block_idx * num_heads * head_size * block_size +
                               head_idx * head_size * block_size + head_offset * block_size +
                               block_offset;
-    key_cache[tgt_key_idx] = __ldg(&key[src_key_idx]);
-    value_cache[tgt_value_idx] = __ldg(&value[src_value_idx]);
+    if constexpr (kv_cache_dtype == KVCacheDType::kE5M2Float) {
+#if USE_CUDA_FP8
+      key_cache[tgt_key_idx] =
+          fp8_e5m2_unscaled::vec_conversion<uint8_t, scalar_t>(__ldg(&key[src_key_idx]));
+      value_cache[tgt_value_idx] =
+          fp8_e5m2_unscaled::vec_conversion<uint8_t, scalar_t>(__ldg(&value[src_value_idx]));
+#endif
+    } else if constexpr (kv_cache_dtype == KVCacheDType::kE4M3Float) {
+#if USE_CUDA_FP8
+      key_cache[tgt_key_idx] =
+          fp8_e4m3_unscaled::vec_conversion<uint8_t, scalar_t>(__ldg(&key[src_key_idx]));
+      value_cache[tgt_value_idx] =
+          fp8_e4m3_unscaled::vec_conversion<uint8_t, scalar_t>(__ldg(&value[src_value_idx]));
+#endif
+    } else {
+      key_cache[tgt_key_idx] = __ldg(&key[src_key_idx]);
+      value_cache[tgt_value_idx] = __ldg(&value[src_value_idx]);
+    }
   }
 }
 
-template <typename scalar_t>
+template <typename scalar_t, typename cache_t, KVCacheDType kv_cache_dtype>
 __global__ void reconstruct_from_cache_kernel(
-    const scalar_t* __restrict__ key_cache,  // [num_blocks, num_heads, head_size/x, block_size, x]
-    const scalar_t* __restrict__ value_cache,  // [num_blocks, num_heads, head_size, block_size]
-    const int* __restrict__ slot_mapping,      // [num_tokens]
-    scalar_t* __restrict__ key,                // [num_tokens, num_heads, head_size]
-    scalar_t* __restrict__ value,              // [num_tokens, num_heads, head_size]
+    const cache_t* __restrict__ key_cache,    // [num_blocks, num_heads, head_size/x, block_size,
+                                              // x]
+    const cache_t* __restrict__ value_cache,  // [num_blocks, num_heads, head_size, block_size]
+    const int* __restrict__ slot_mapping,     // [num_tokens]
+    scalar_t* __restrict__ key,               // [num_tokens, num_heads, head_size]
+    scalar_t* __restrict__ value,             // [num_tokens, num_heads, head_size]
     const int key_stride, const int value_stride, const int num_heads, const int head_size,
     const int block_size, const int x) {
   const int token_idx = blockIdx.x;
@@ -93,8 +113,24 @@ __global__ void reconstruct_from_cache_kernel(
                               head_idx * head_size * block_size + head_offset * block_size +
                               block_offset;
 
-    key[tgt_key_idx] = __ldg(&key_cache[src_key_idx]);
-    value[tgt_value_idx] = __ldg(&value_cache[src_value_idx]);
+    if constexpr (kv_cache_dtype == KVCacheDType::kE5M2Float) {
+#if USE_CUDA_FP8
+      key[tgt_key_idx] =
+          fp8_e5m2_unscaled::vec_conversion<scalar_t, uint8_t>(__ldg(&key_cache[src_key_idx]));
+      value[tgt_value_idx] =
+          fp8_e5m2_unscaled::vec_conversion<scalar_t, uint8_t>(__ldg(&value_cache[src_value_idx]));
+#endif
+    } else if constexpr (kv_cache_dtype == KVCacheDType::kE4M3Float) {
+#if USE_CUDA_FP8
+      key[tgt_key_idx] =
+          fp8_e4m3_unscaled::vec_conversion<scalar_t, uint8_t>(__ldg(&key_cache[src_key_idx]));
+      value[tgt_value_idx] =
+          fp8_e4m3_unscaled::vec_conversion<scalar_t, uint8_t>(__ldg(&value_cache[src_value_idx]));
+#endif
+    } else {
+      key[tgt_key_idx] = __ldg(&key_cache[src_key_idx]);
+      value[tgt_value_idx] = __ldg(&value_cache[src_value_idx]);
+    }
   }
 }
 
@@ -144,14 +180,16 @@ TVM_REGISTER_GLOBAL("tvm.contrib.vllm.reshape_and_cache")
 
       dim3 grid(num_tokens);
       dim3 block(std::min(num_heads * head_size, 512));
-
       using scalar_t = uint16_t;
-      vllm::reshape_and_cache_kernel<scalar_t><<<grid, block>>>(
-          static_cast<const scalar_t*>(key->data), static_cast<const scalar_t*>(value->data),
-          static_cast<scalar_t*>(key_cache->data), static_cast<scalar_t*>(value_cache->data),
-          static_cast<const int*>(slot_mapping->data), key_stride, value_stride, num_heads,
-          head_size, block_size, vec_size);
-
+      using cache_t = uint16_t;
+      using scalar_t = uint16_t;
+      VLLM_DISPATCH_KV_CACHE_DTYPE(key_cache->dtype, {
+        vllm::reshape_and_cache_kernel<scalar_t, cache_t, kv_cache_dtype><<<grid, block>>>(
+            static_cast<const scalar_t*>(key->data), static_cast<const scalar_t*>(value->data),
+            static_cast<cache_t*>(key_cache->data), static_cast<cache_t*>(value_cache->data),
+            static_cast<const int*>(slot_mapping->data), key_stride, value_stride, num_heads,
+            head_size, block_size, vec_size);
+      });
       return Array{key_cache, value_cache};
     });
 
@@ -174,13 +212,14 @@ TVM_REGISTER_GLOBAL("tvm.contrib.vllm.reconstruct_from_cache")
       dim3 block(std::min(num_heads * head_size, 512));
 
       using scalar_t = uint16_t;
-      vllm::reconstruct_from_cache_kernel<scalar_t>
-          <<<grid, block>>>(static_cast<const scalar_t*>(key_cache->data),
-                            static_cast<const scalar_t*>(value_cache->data),
-                            static_cast<const int*>(slot_mapping->data),
-                            static_cast<scalar_t*>(key->data), static_cast<scalar_t*>(value->data),
-                            key_stride, value_stride, num_heads, head_size, block_size, vec_size);
-
+      VLLM_DISPATCH_KV_CACHE_DTYPE(key_cache->dtype, {
+        vllm::reconstruct_from_cache_kernel<scalar_t, cache_t, kv_cache_dtype><<<grid, block>>>(
+            static_cast<const cache_t*>(key_cache->data),
+            static_cast<const cache_t*>(value_cache->data),
+            static_cast<const int*>(slot_mapping->data), static_cast<scalar_t*>(key->data),
+            static_cast<scalar_t*>(value->data), key_stride, value_stride, num_heads, head_size,
+            block_size, vec_size);
+      });
       return Array{key, value};
     });
 
@@ -223,11 +262,12 @@ TVM_REGISTER_GLOBAL("tvm.contrib.vllm.copy_blocks")
       dim3 grid(num_layers, num_pairs);
       dim3 block(std::min(1024, numel_per_block));
 
-      using scalar_t = uint16_t;
-      vllm::copy_blocks_kernel<scalar_t>
-          <<<grid, block>>>(static_cast<int64_t*>(key_cache_ptrs_gpu->data),
-                            static_cast<int64_t*>(value_cache_ptrs_gpu->data),
-                            static_cast<int64_t*>(block_mapping_gpu->data), numel_per_block);
+      VLLM_DISPATCH_KV_CACHE_DTYPE(key_cache->dtype, {
+        vllm::copy_blocks_kernel<cache_t>
+            <<<grid, block>>>(static_cast<int64_t*>(key_cache_ptrs_gpu->data),
+                              static_cast<int64_t*>(value_cache_ptrs_gpu->data),
+                              static_cast<int64_t*>(block_mapping_gpu->data), numel_per_block);
+      });
     });
 
 }  // namespace runtime
diff --git a/src/runtime/contrib/vllm/dtype_float8.h b/src/runtime/contrib/vllm/dtype_float8.h
@@ -0,0 +1,28 @@
+#pragma once
+
+#include <stdint.h>
+
+namespace vllm {
+// fp8 vector types for quantization of kv cache
+
+template <>
+struct Vec<uint8_t, 1> {
+  using Type = uint8_t;
+};
+
+template <>
+struct Vec<uint8_t, 2> {
+  using Type = uint16_t;
+};
+
+template <>
+struct Vec<uint8_t, 4> {
+  using Type = uint32_t;
+};
+
+template <>
+struct Vec<uint8_t, 8> {
+  using Type = uint2;
+};
+
+}  // namespace vllm
diff --git a/src/runtime/contrib/vllm/quant_utils.cuh b/src/runtime/contrib/vllm/quant_utils.cuh
diff --git a/src/support/libinfo.cc b/src/support/libinfo.cc

Original file line number	Diff line number	Diff line change
`@@ -138,6 +138,7 @@ function(add_lib_info src_file)`
`138`	`138`	`TVM_INFO_USE_MSC="${USE_MSC}"`
`139`	`139`	`TVM_INFO_USE_CCACHE="${USE_CCACHE}"`
`140`	`140`	`TVM_INFO_BACKTRACE_ON_SEGFAULT="${BACKTRACE_ON_SEGFAULT}"`
	`141`	`+ TVM_INFO_USE_CUDA_FP8="${USE_CUDA_FP8}"`
`141`	`142`	`)`
`142`	`143`
`143`	`144`	`endfunction()`