generalise extra_supports_op

Djip007 · Djip007 · commit 9899f8e44aba · 2024-11-29T00:18:40.000+01:00
diff --git a/Makefile b/Makefile
@@ -948,11 +948,11 @@ OBJ_GGML = \
 	$(DIR_GGML)/src/ggml-quants.o \
 	$(DIR_GGML)/src/ggml-threading.o \
 	$(DIR_GGML)/src/ggml-cpu/ggml-cpu.o \
-	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-cpp.o \
-	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-aarch64.o \
+	$(DIR_GGML)/src/ggml-cpu/ggml-cpu_cpp17.o \
+	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-aarch64_cpp17.o \
 	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-hbm.o \
 	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-quants.o \
-	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-traits.o \
+	$(DIR_GGML)/src/ggml-cpu/ggml-cpu-traits_cpp17.o \
 	$(OBJ_GGML_EXT)
 
 OBJ_LLAMA = \
@@ -1092,17 +1092,9 @@ DEP_FILES = $(OBJ_GGML:.o=.d) $(OBJ_LLAMA:.o=.d) $(OBJ_COMMON:.o=.d)
 # Default target
 all: $(BUILD_TARGETS)
 
-# Note: need this exception because `ggml-cpu.c` and `ggml-cpu.cpp` both produce the same obj/dep files
-#       g++ -M -I ./ggml/include/ -I ./ggml/src ggml/src/ggml-cpu/ggml-cpu.cpp | grep ggml
-$(DIR_GGML)/src/ggml-cpu/ggml-cpu-cpp.o: \
-	ggml/src/ggml-cpu/ggml-cpu.cpp \
-	ggml/include/ggml-backend.h \
-	ggml/include/ggml.h \
-	ggml/include/ggml-alloc.h \
-	ggml/src/ggml-backend-impl.h \
-	ggml/include/ggml-cpu.h \
-	ggml/src/ggml-impl.h
-	$(CXX) $(CXXFLAGS)   -c $< -o $@
+# for c++17 build
+$(DIR_GGML)/%_cpp17.o: $(DIR_GGML)/%.cpp
+	$(CXX) $(CXXFLAGS) -MMD -std=c++17 -c $< -o $@
 
 # Rules for building object files
 $(DIR_GGML)/%.o: $(DIR_GGML)/%.c
diff --git a/ggml/src/ggml-cpu/CMakeLists.txt b/ggml/src/ggml-cpu/CMakeLists.txt
@@ -13,6 +13,8 @@ ggml_add_backend_library(ggml-cpu
 
 target_include_directories(ggml-cpu PRIVATE .)
 
+target_compile_features   (ggml-cpu PRIVATE cxx_std_17)
+
 if (APPLE AND GGML_ACCELERATE)
     find_library(ACCELERATE_FRAMEWORK Accelerate)
     if (ACCELERATE_FRAMEWORK)
diff --git a/ggml/src/ggml-cpu/ggml-cpu-aarch64.cpp b/ggml/src/ggml-cpu/ggml-cpu-aarch64.cpp
@@ -3865,7 +3865,7 @@ static const struct ggml_cpu_tensor_traits ggml_aarch64_iq4_nl_4x4_q8_0 = {
     /* .gemm                     = */ ggml_gemm_iq4_nl_4x4_q8_0,
 };
 
-const struct ggml_cpu_tensor_traits* ggml_aarch64_get_optimal_repack_type(const struct ggml_tensor * cur) {
+static const struct ggml_cpu_tensor_traits* ggml_aarch64_get_optimal_repack_type(const struct ggml_tensor * cur) {
     if (cur->type == GGML_TYPE_Q4_0) {
         // TODO: enable for AVX2 - currently disabled due to bad gemv performance
         if (ggml_cpu_has_avx2() || (ggml_cpu_has_sve() && ggml_cpu_has_matmul_int8() && ggml_cpu_get_sve_cnt() == QK8_0)) {
@@ -3931,6 +3931,16 @@ static size_t ggml_backend_cpu_aarch64_buffer_type_get_alignment(ggml_backend_bu
     GGML_UNUSED(buft);
 }
 
+namespace ggml::cpu::aarch64 {
+    class extra_buffer_type : ggml::cpu::extra_buffer_type {
+        bool supports_op(ggml_backend_dev_t , const struct ggml_tensor * op) {
+            // voir si on peu faire plus simple?
+            return (op->op == GGML_OP_MUL_MAT && ggml_aarch64_get_optimal_repack_type(op->src[0]));
+        }
+
+    };
+}
+
 ggml_backend_buffer_type_t ggml_backend_cpu_aarch64_buffer_type(void) {
     static struct ggml_backend_buffer_type ggml_backend_cpu_buffer_type_aarch64 = {
         /* .iface    = */ {
@@ -3942,12 +3952,8 @@ ggml_backend_buffer_type_t ggml_backend_cpu_aarch64_buffer_type(void) {
             /* .is_host          = */ NULL,
         },
         /* .device  = */ ggml_backend_reg_dev_get(ggml_backend_cpu_reg(), 0),
-        /* .context = */ NULL,
+        /* .context = */ new ggml::cpu::aarch64::extra_buffer_type(),
     };
 
     return &ggml_backend_cpu_buffer_type_aarch64;
 }
-
-bool ggml_backend_cpu_buft_is_aarch64(ggml_backend_buffer_type_t buft) {
-    return buft == ggml_backend_cpu_aarch64_buffer_type();
-}
diff --git a/ggml/src/ggml-cpu/ggml-cpu-aarch64.h b/ggml/src/ggml-cpu/ggml-cpu-aarch64.h
@@ -10,9 +10,6 @@ extern "C" {
 #endif
 
 #ifdef GGML_USE_CPU_AARCH64
-    const struct ggml_cpu_tensor_traits* ggml_aarch64_get_optimal_repack_type(const struct ggml_tensor * cur);
-    GGML_BACKEND_API bool ggml_backend_cpu_buft_is_aarch64(ggml_backend_buffer_type_t buft);
-
     GGML_BACKEND_API ggml_backend_buffer_type_t ggml_backend_cpu_aarch64_buffer_type(void);
 #endif
 
diff --git a/ggml/src/ggml-cpu/ggml-cpu-traits.cpp b/ggml/src/ggml-cpu/ggml-cpu-traits.cpp
@@ -2,6 +2,11 @@
 #include "ggml-backend.h"
 #include "ggml-backend-impl.h"
 
+namespace ggml::cpu {
+    tensor_traits::~tensor_traits(){};
+    extra_buffer_type::~extra_buffer_type() {}
+}
+
 const struct ggml_cpu_tensor_traits* ggml_cpu_get_tensor_traits(
         const struct ggml_tensor * tensor)
 {
diff --git a/ggml/src/ggml-cpu/ggml-cpu-traits.h b/ggml/src/ggml-cpu/ggml-cpu-traits.h
@@ -1,10 +1,30 @@
 #pragma once
 #include "ggml.h"
+#include "ggml-backend-impl.h"
 
 #ifdef  __cplusplus
+namespace ggml::cpu {
+    // enregistré dans tensor->extra
+    class tensor_traits {
+    public:
+        ~tensor_traits();
+        virtual bool compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor) = 0;
+    };
+
+    // ou mettre ca?
+    class extra_buffer_type {
+    public:
+        ~extra_buffer_type();
+        virtual bool supports_op(ggml_backend_dev_t dev, const struct ggml_tensor * op) = 0;
+    };
+}
 extern "C" {
+// #else
 #endif
+    // a t'on besoin d'un mapping C?
+    //bool ggml_cpu_extra_compute_forward(void* extra, struct ggml_compute_params * params, struct ggml_tensor * tensor);
 
+    // @ transferer en methode privée pour cpu_aarch64
     typedef int (*ggml_repack_t) (struct ggml_tensor *t, int interleave_block, const void * GGML_RESTRICT data,
                                     size_t data_size);
     typedef void (*ggml_from_float_to_mat_t)
diff --git a/ggml/src/ggml-cpu/ggml-cpu.cpp b/ggml/src/ggml-cpu/ggml-cpu.cpp
@@ -27,7 +27,7 @@
 
 // ggml-backend interface
 
-static std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_bufts() {
+static std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_buffers_type() {
     static std::vector<ggml_backend_buffer_type_t> bufts = []() {
         std::vector<ggml_backend_buffer_type_t> bufts;
 
@@ -47,14 +47,14 @@ static std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_bufts
     return bufts;
 }
 
-static ggml_backend_buffer_type_t * ggml_backend_cpu_get_extra_bufts(ggml_backend_dev_t device) {
-    return ggml_backend_cpu_get_extra_bufts().data();
+static ggml_backend_buffer_type_t * ggml_backend_cpu_device_get_extra_buffers_type(ggml_backend_dev_t device) {
+    return ggml_backend_cpu_get_extra_buffers_type().data();
 
     GGML_UNUSED(device);
 }
 
-static bool ggml_backend_cpu_is_extra_buft(ggml_backend_buffer_type_t buft) {
-    for (auto extra : ggml_backend_cpu_get_extra_bufts()) {
+static bool ggml_backend_cpu_is_extra_buffer_type(ggml_backend_buffer_type_t buft) {
+    for (auto extra : ggml_backend_cpu_get_extra_buffers_type()) {
         if (extra && extra == buft) return true;
     }
     return false;
@@ -364,20 +364,16 @@ static bool ggml_backend_cpu_device_supports_op(ggml_backend_dev_t dev, const st
     const struct ggml_tensor * src0 = op->src[0];
     const struct ggml_tensor * src1 = op->src[1];
 
-    // TODO voir comment reformater ca... type_traits && !type_traits->op_supported() => return false?
-#ifdef GGML_USE_CPU_AARCH64
-    if (src0 && src0->buffer && ggml_backend_cpu_buft_is_aarch64(src0->buffer->buft)) {
-        if (op->op != GGML_OP_MUL_MAT || ggml_aarch64_get_optimal_repack_type(src0) == nullptr) {
-            return false;
-        }
-    }
-
-    for (int i = 1; i < GGML_MAX_SRC; i++) {
-        if (op->src[i] && op->src[i]->buffer && ggml_backend_cpu_buft_is_aarch64(op->src[i]->buffer->buft)) {
+    // extra_buffer_op?
+    for (int i = 0; i < GGML_MAX_SRC; i++) {
+        if (op->src[i] && op->src[i]->buffer && ggml_backend_cpu_is_extra_buffer_type(op->src[i]->buffer->buft)) {
+            auto buf = (ggml::cpu::extra_buffer_type*) op->src[i]->buffer->buft->context;
+            if (buf) {
+                return buf->supports_op(dev, op);
+            }
             return false;
         }
     }
-#endif
 
     switch (op->op) {
         case GGML_OP_CPY:
@@ -402,7 +398,7 @@ static bool ggml_backend_cpu_device_supports_op(ggml_backend_dev_t dev, const st
 }
 
 static bool ggml_backend_cpu_device_supports_buft(ggml_backend_dev_t dev, ggml_backend_buffer_type_t buft) {
-    return ggml_backend_buft_is_host(buft) || ggml_backend_cpu_is_extra_buft(buft);
+    return ggml_backend_buft_is_host(buft) || ggml_backend_cpu_is_extra_buffer_type(buft);
     GGML_UNUSED(dev);
 }
 
@@ -546,7 +542,10 @@ static void * ggml_backend_cpu_get_proc_address(ggml_backend_reg_t reg, const ch
         return (void *)fct;
     }
     if (strcmp(name, "ggml_backend_dev_get_extra_bufts") == 0) {
-        ggml_backend_dev_get_extra_bufts_t fct = ggml_backend_cpu_get_extra_bufts;
+        // Pourquoi ne pas mettre ca avec
+        //static const struct ggml_backend_device_i ggml_backend_cpu_device_i = {
+        //    /* .get_buffer_type      = */ ggml_backend_cpu_device_get_buffer_type,
+        ggml_backend_dev_get_extra_bufts_t fct = ggml_backend_cpu_device_get_extra_buffers_type;
         return (void *)fct;
     }
     if (strcmp(name, "ggml_backend_get_features") == 0) {