PaddlePaddle
diff --git a/‎CMakeLists.txt
Lines changed: 32 additions & 17 deletions b/‎CMakeLists.txt
Lines changed: 32 additions & 17 deletions
diff --git a/‎paddle/fluid/operators/determinant_op.cc
Lines changed: 78 additions & 0 deletions b/‎paddle/fluid/operators/determinant_op.cc
Lines changed: 78 additions & 0 deletions
diff --git a/‎paddle/fluid/operators/determinant_op.cu
Lines changed: 195 additions & 0 deletions b/‎paddle/fluid/operators/determinant_op.cu
Lines changed: 195 additions & 0 deletions
@@ -12,8 +12,14 @@
 # See the License for the specific language governing permissions and
 # limitations under the License
 
-cmake_minimum_required(VERSION 3.10)
-cmake_policy(VERSION 3.10)
+if(APPLE AND WITH_ARM)
+    # cmake 3.19.2 version starts to support M1
+    cmake_minimum_required(VERSION 3.19.2)
+    cmake_policy(VERSION 3.19.2)
+else(APPLE AND WITH_ARM)
+    cmake_minimum_required(VERSION 3.10)
+    cmake_policy(VERSION 3.10)
+endif(APPLE AND WITH_ARM)
 set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} "${CMAKE_CURRENT_SOURCE_DIR}/cmake")
 set(PADDLE_SOURCE_DIR ${CMAKE_CURRENT_SOURCE_DIR})
 set(PADDLE_BINARY_DIR ${CMAKE_CURRENT_BINARY_DIR})
@@ -73,6 +79,11 @@ if(WITH_MUSL)
     set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wno-error=deprecated-declarations -Wno-deprecated-declarations -Wno-error=pessimizing-move -Wno-error=deprecated-copy")
 endif()
 
+if(APPLE AND WITH_ARM)
+    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -target arm64-apple-darwin")
+    set(CMAKE_CXX_FLAGS "${CMAKE_C_FLAGS} -target arm64-apple-darwin")
+endif()
+
 if(WITH_ASCEND_CL AND NOT WITH_ASCEND_CXX11)
     set(CMAKE_CXX_FLAGS  "${CMAKE_CXX_FLAGS} -D_GLIBCXX_USE_CXX11_ABI=0")
 endif()
@@ -97,10 +108,6 @@ if(WIN32)
 
     if (MSVC_STATIC_CRT)
         message(STATUS "Use static C runtime time, refer to https://docs.microsoft.com/en-us/cpp/c-runtime-library/crt-library-features?view=vs-2019")
-        set(CMAKE_C_FLAGS_DEBUG   "${CMAKE_C_FLAGS_DEBUG} /MTd")
-        set(CMAKE_C_FLAGS_RELEASE  "${CMAKE_C_FLAGS_RELEASE} /MT")
-        set(CMAKE_CXX_FLAGS_DEBUG  "${CMAKE_CXX_FLAGS_DEBUG} /MTd")
-        set(CMAKE_CXX_FLAGS_RELEASE   "${CMAKE_CXX_FLAGS_RELEASE} /MT")
         foreach(flag_var
             CMAKE_CXX_FLAGS CMAKE_CXX_FLAGS_DEBUG CMAKE_CXX_FLAGS_RELEASE
             CMAKE_CXX_FLAGS_MINSIZEREL CMAKE_CXX_FLAGS_RELWITHDEBINFO
@@ -112,17 +119,19 @@ if(WIN32)
         endforeach(flag_var)
     endif()
 
-    math(EXPR PROCESS_MAX "${CPU_CORES} * 2 / 3")
-
     # windows build turn off warnings, use parallel compiling.
     foreach(flag_var
         CMAKE_CXX_FLAGS CMAKE_CXX_FLAGS_DEBUG CMAKE_CXX_FLAGS_RELEASE
         CMAKE_CXX_FLAGS_MINSIZEREL CMAKE_CXX_FLAGS_RELWITHDEBINFO
         CMAKE_C_FLAGS CMAKE_C_FLAGS_DEBUG CMAKE_C_FLAGS_RELEASE
         CMAKE_C_FLAGS_MINSIZEREL CMAKE_C_FLAGS_RELWITHDEBINFO)
         string(REGEX REPLACE "/W[1-4]" " /W0 " ${flag_var} "${${flag_var}}")
-        # NOTE(zhouwei25): GPU compile have too high memory utilization when parallel compiling
-        if(NOT WITH_GPU)
+        
+        # NOTE(zhouwei25): GPU compile have too high memory utilization when parallel compiling,
+        # For Visual Studio generators, /MP should be added. 
+        # For other generators like Ninja, it is not need to add /MP.
+        if(CMAKE_GENERATOR MATCHES "Visual Studio" AND NOT WITH_GPU)
+            math(EXPR PROCESS_MAX "${CPU_CORES} * 2 / 3")
             set(${flag_var} "${${flag_var}} /MP${PROCESS_MAX}")
         endif()
     endforeach(flag_var)
@@ -305,6 +314,17 @@ else()
      endif()
 endif()
 
+if(WITH_DISTRIBUTE)
+    if(LINUX)
+        set(WITH_GLOO ON CACHE STRING "Enable GLOO when compiling WITH_DISTRIBUTE=ON." FORCE)
+    endif()
+    if(WITH_ASCEND_CL)
+        # disable WITH_PSCORE for NPU before include third_party
+        MESSAGE(WARNING "Disable WITH_PSCORE when compiling with NPU. Force WITH_PSCORE=OFF.")
+        set(WITH_PSCORE OFF CACHE BOOL "Disable WITH_PSCORE when compiling with NPU" FORCE)
+    endif()
+endif()
+
 include(third_party)  # download, build, install third_party, Contains about 20+ dependencies
 
 include(flags)              # set paddle compile flags
@@ -315,12 +335,6 @@ if(WITH_PROFILER)
     add_definitions(-DWITH_GPERFTOOLS)
 endif()
 
-if(WITH_DISTRIBUTE)
-    if(LINUX)
-        set(WITH_GLOO ON CACHE STRING "Enable GLOO when compiling WITH_DISTRIBUTE=ON." FORCE)
-    endif()
-endif()
-
 include(ccache)             # set ccache for compilation
 include(util)               # set unittest and link libs
 include(version)            # set PADDLE_VERSION
@@ -336,8 +350,9 @@ endif()
 if(WITH_ARM)
     set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -fPIC")
     set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fPIC")
-    set(WITH_XBYAK OFF CACHE STRING "Disable XBYAK when compiling WITH_ARM=ON" FORCE)
+    set(WITH_XBYAK OFF CACHE STRING "Disable XBYAK when compiling WITH_ARM=ON." FORCE)
     set(WITH_MKL OFF CACHE STRING "Disable MKL when compiling WITH_ARM=ON." FORCE)
+    set(WITH_AVX OFF CACHE STRING "Disable AVX when compiling WITH_AVX=OFF." FORCE)
     add_definitions(-DPADDLE_WITH_ARM)
 endif()
 
 
@@ -84,6 +84,73 @@ class DeterminantGradOpMaker : public framework::SingleGradOpMaker<T> {
 DECLARE_NO_NEED_BUFFER_VARS_INFERER(DeterminantGradNoNeedBufferVarsInferer,
                                     "Input");
 
+class SlogDeterminantOp : public framework::OperatorWithKernel {
+ public:
+  using framework::OperatorWithKernel::OperatorWithKernel;
+
+  void InferShape(framework::InferShapeContext *ctx) const override {
+    OP_INOUT_CHECK(ctx->HasInput("Input"), "Input", "Input", "determinant");
+    OP_INOUT_CHECK(ctx->HasOutput("Out"), "Output", "Out", "determinant");
+  }
+};
+
+class SlogDeterminantOpMaker : public framework::OpProtoAndCheckerMaker {
+ public:
+  void Make() override {
+    AddInput(
+        "Input",
+        "(Tensor) The input tensor, from which the determinant are taken.");
+    AddOutput("Out",
+              "(Tensor) The partial view of input with the its slogdeterminant "
+              "elements.");
+
+    AddComment(R"DOC(
+SlogDeterminant Operator.)DOC");
+  }
+};
+
+class SlogDeterminantGradOp : public framework::OperatorWithKernel {
+ public:
+  using framework::OperatorWithKernel::OperatorWithKernel;
+
+  void InferShape(framework::InferShapeContext *ctx) const override {
+    OP_INOUT_CHECK(ctx->HasInput("Input"), "Input", "Input",
+                   "SlogDeterminantGradOp");
+    OP_INOUT_CHECK(ctx->HasOutput(framework::GradVarName("Input")), "Output",
+                   framework::GradVarName("Input"), "SlogDeterminantGradOp");
+
+    ctx->SetOutputDim(framework::GradVarName("Input"),
+                      ctx->GetInputDim("Input"));
+  }
+
+ protected:
+  framework::OpKernelType GetExpectedKernelType(
+      const framework::ExecutionContext &ctx) const override {
+    return framework::OpKernelType(OperatorWithKernel::IndicateVarDataType(
+                                       ctx, framework::GradVarName("Out")),
+                                   ctx.GetPlace());
+  }
+};
+
+template <typename T>
+class SlogDeterminantGradOpMaker : public framework::SingleGradOpMaker<T> {
+ public:
+  using framework::SingleGradOpMaker<T>::SingleGradOpMaker;
+
+ protected:
+  void Apply(GradOpPtr<T> grad_op) const override {
+    grad_op->SetType("slogdeterminant_grad");
+    grad_op->SetInput("Input", this->Input("Input"));
+    grad_op->SetInput(framework::GradVarName("Out"), this->OutputGrad("Out"));
+    grad_op->SetOutput(framework::GradVarName("Input"),
+                       this->InputGrad("Input"));
+    grad_op->SetAttrMap(this->Attrs());
+  }
+};
+
+DECLARE_NO_NEED_BUFFER_VARS_INFERER(SlogDeterminantGradNoNeedBufferVarsInferer,
+                                    "Input");
+
 }  // namespace operators
 }  // namespace paddle
 
@@ -97,3 +164,14 @@ REGISTER_OP_CPU_KERNEL(determinant, ops::DeterminantKernel<int>,
                        ops::DeterminantKernel<float>,
                        ops::DeterminantKernel<double>,
                        ops::DeterminantKernel<bool>);
+
+REGISTER_OPERATOR(slogdeterminant, ops::SlogDeterminantOp,
+                  ops::SlogDeterminantOpMaker,
+                  ops::SlogDeterminantGradOpMaker<paddle::framework::OpDesc>,
+                  ops::SlogDeterminantGradOpMaker<paddle::imperative::OpBase>);
+
+REGISTER_OP_CPU_KERNEL(slogdeterminant, ops::SlogDeterminantKernel<int>,
+                       ops::SlogDeterminantKernel<int64_t>,
+                       ops::SlogDeterminantKernel<float>,
+                       ops::SlogDeterminantKernel<double>,
+                       ops::SlogDeterminantKernel<bool>);
@@ -0,0 +1,195 @@
+/* Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/operators/determinant_op.h"
+#include "paddle/fluid/platform/cuda_primitives.h"
+
+namespace paddle {
+namespace operators {
+
+using platform::PADDLE_CUDA_NUM_THREADS;
+using Tensor = framework::Tensor;
+
+template <typename T>
+__global__ void Determinant(const size_t numel, const T* in, int rank, T* out) {
+  int tid = threadIdx.x + blockIdx.x * blockDim.x;
+  if (tid < numel) {
+    Eigen::MatrixXf matrix(rank, rank);
+
+    for (int i = 0; i < rank; ++i) {
+      for (int j = 0; j < rank; ++j) {
+        matrix(i, j) = in[rank * i + j];
+      }
+      out[tid] = matrix.determinant();
+    }
+  }
+}
+
+template <typename T>
+__global__ void DeterminantGrad(const size_t numel, T* out) {
+  int tid = threadIdx.x + blockIdx.x * blockDim.x;
+  if (tid < numel) {
+    out[tid] = static_cast<T>(1);
+  }
+}
+template <typename T>
+class DeterminantCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& context) const override {
+    auto* input = context.Input<framework::Tensor>("Input");
+    const auto* input_data = input->data<T>();
+    auto input_dim = input->dims().Get();
+    auto input_dim_size = input->dims().size();
+
+    std::vector<int64_t> res_in = vectorize(framework::stride(input->dims()));
+    paddle::framework::Tensor input_stride_tensor;
+    framework::TensorFromVector<int64_t>(res_in, context.device_context(),
+                                         &input_stride_tensor);
+
+    auto* output = context.Output<framework::Tensor>("Out");
+    auto* output_data = output->mutable_data<T>(context.GetPlace());
+    auto output_dim = output->dims().Get();
+    auto output_dim_size = output->dims().size();
+    auto numel = output->numel();
+
+    int threads = PADDLE_CUDA_NUM_THREADS;
+    int blocks = (numel + threads - 1) / threads;
+
+    auto rank = input_dim[input_dim_size - 1];
+    Determinant<T><<<blocks, threads>>>(numel, input_data, rank, output_data);
+  }
+};
+
+template <typename T>
+class DeterminantGradCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& context) const override {
+    const auto* dout =
+        context.Input<framework::Tensor>(framework::GradVarName("Out"));
+    const T* dout_data = dout->data<T>();
+    auto dout_dim = vectorize(dout->dims());
+
+    auto* dx =
+        context.Output<framework::Tensor>(framework::GradVarName("Input"));
+    T* dx_data = dx->mutable_data<T>(context.GetPlace());
+
+    int64_t numel = dx->numel();
+    for (int64_t idx = 0; idx < numel; idx++) {
+      dx_data[idx] = static_cast<T>(1);
+    }
+  }
+};
+
+template <typename T>
+__global__ void SlogDeterminant(const size_t total, const T* in, int rank,
+                                T* out) {
+  int tid = threadIdx.x + blockIdx.x * blockDim.x;
+  if (tid < total) {
+    Eigen::MatrixXf matrix(rank, rank);
+
+    for (int i = 0; i < rank; ++i) {
+      for (int j = 0; j < rank; ++j) {
+        matrix(i, j) = ingit[rank * i + j];
+      }
+      out[tid] = sin(matrix.determinant());
+      out[tid + total] = log(matrix.determinant());
+    }
+  }
+}
+
+template <typename T>
+class SlogDeterminantCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& context) const override {
+    auto* input = context.Input<framework::Tensor>("Input");
+    const auto* input_data = input->data<T>();
+    auto input_dim = input->dims().Get();
+    auto input_dim_size = input->dims().size();
+
+    std::vector<int64_t> res_in = vectorize(framework::stride(input->dims()));
+    paddle::framework::Tensor input_stride_tensor;
+    framework::TensorFromVector<int64_t>(res_in, context.device_context(),
+                                         &input_stride_tensor);
+
+    auto* output = context.Output<framework::Tensor>("Out");
+    auto* output_data = output->mutable_data<T>(context.GetPlace());
+    auto output_dim = output->dims().Get();
+    auto output_dim_size = output->dims().size();
+
+    int threads = PADDLE_CUDA_NUM_THREADS;
+    auto numel = output->numel() / 2;
+    int blocks = (numel + threads - 1) / threads;
+
+    auto rank = input_dim[input_dim_size - 1];
+    SlogDeterminant<T><<<blocks, threads>>>(numel, input_data, rank,
+                                            output_data);
+  }
+};
+
+template <typename T>
+class SlogDeterminantGradCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& context) const override {
+    auto* input = context.Input<framework::Tensor>("Input");
+    const auto* input_data = input->data<T>();
+    auto input_dim = input->dims().Get();
+    auto input_dim_size = input->dims().size();
+
+    std::vector<int64_t> res_in = vectorize(framework::stride(input->dims()));
+    paddle::framework::Tensor input_stride_tensor;
+    framework::TensorFromVector<int64_t>(res_in, context.device_context(),
+                                         &input_stride_tensor);
+
+    auto* output = context.Output<framework::Tensor>("Out");
+    auto* output_data = output->mutable_data<T>(context.GetPlace());
+    auto output_dim = output->dims().Get();
+    auto output_dim_size = output->dims().size();
+
+    int threads = PADDLE_CUDA_NUM_THREADS;
+    auto numel = output->numel() / 2;
+    int blocks = (numel + threads - 1) / threads;
+
+    auto rank = input_dim[input_dim_size - 1];
+    DeterminantGrad<T><<<blocks, threads>>>(numel, output_data);
+  }
+};
+
+}  // namespace operators
+}  // namespace paddle
+
+namespace ops = paddle::operators;
+namespace plat = paddle::platform;
+REGISTER_OP_CUDA_KERNEL(determinant, ops::DeterminantCUDAKernel<int>,
+                        ops::DeterminantCUDAKernel<int64_t>,
+                        ops::DeterminantCUDAKernel<float>,
+                        ops::DeterminantCUDAKernel<double>,
+                        ops::DeterminantCUDAKernel<bool>);
+
+REGISTER_OP_CUDA_KERNEL(determinant_grad, ops::DeterminantGradCUDAKernel<int>,
+                        ops::DeterminantGradCUDAKernel<int64_t>,
+                        ops::DeterminantGradCUDAKernel<float>,
+                        ops::DeterminantGradCUDAKernel<double>);
+
+REGISTER_OP_CUDA_KERNEL(slogdeterminant, ops::SlogDeterminantCUDAKernel<int>,
+                        ops::SlogDeterminantCUDAKernel<int64_t>,
+                        ops::SlogDeterminantCUDAKernel<float>,
+                        ops::SlogDeterminantCUDAKernel<double>,
+                        ops::SlogDeterminantCUDAKernel<bool>);
+
+REGISTER_OP_CUDA_KERNEL(slogdeterminant_grad,
+                        ops::DeterminantGradCUDAKernel<int>,
+                        ops::SlogDeterminantGradCUDAKernel<int64_t>,
+                        ops::SlogDeterminantGradCUDAKernel<float>,
+                        ops::SlogDeterminantGradCUDAKernel<double>);