diff --git a/Makefile b/Makefile index 759635aa37f6a..aa29aeccff652 100644 --- a/Makefile +++ b/Makefile @@ -199,28 +199,24 @@ ifdef LLAMA_HIPBLAS CXX := $(ROCM_PATH)/llvm/bin/clang++ GPU_TARGETS = gfx803 gfx900 gfx906 gfx908 gfx90a gfx1030 gfx1100 LLAMA_CUDA_DMMV_X ?= 128 - LLAMA_CUDA_MMV_Y ?= 1 + LLAMA_CUDA_MMV_Y ?= 2 LLAMA_CUDA_KQUANTS_ITER ?= 1 - LLAMA_CUDA_FORCE_DMMV ?= true HIPFLAGS += -DGGML_USE_HIPBLAS -DGGML_USE_CUBLAS $(shell $(ROCM_PATH)/bin/hipconfig -C) HIPLDFLAGS += -L$(ROCM_PATH)/lib -Wl,-rpath=$(ROCM_PATH)/lib -lhipblas -lamdhip64 -lrocblas HIP_OBJS += ggml-cuda.o ggml_v2-cuda.o ggml_v2-cuda-legacy.o ggml-cuda.o: HIPFLAGS += $(addprefix --offload-arch=,$(GPU_TARGETS)) \ -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X) \ -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y) \ - -DGGML_CUDA_FORCE_DMMV \ -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER) \ -DCC_TURING=1000000000 ggml_v2-cuda.o: HIPFLAGS += $(addprefix --offload-arch=,$(GPU_TARGETS)) \ -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X) \ -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y) \ - -DGGML_CUDA_FORCE_DMMV \ -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER) \ -DCC_TURING=1000000000 ggml_v2-cuda-legacy.o: HIPFLAGS += $(addprefix --offload-arch=,$(GPU_TARGETS)) \ -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X) \ -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y) \ - -DGGML_CUDA_FORCE_DMMV \ -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER) \ -DCC_TURING=1000000000 # DGGML_CUDA_DMMV_F16 does not currently work with AMD. ggml-cuda.o: ggml-cuda.cu ggml-cuda.h