PaddlePaddle
diff --git a/‎paddle/fluid/framework/ir/adaptive_pool2d_convert_global_pass.cc‎
Lines changed: 40 additions & 0 deletions b/‎paddle/fluid/framework/ir/adaptive_pool2d_convert_global_pass.cc‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎paddle/fluid/framework/ir/adaptive_pool2d_convert_global_pass.h‎
Lines changed: 1 addition & 0 deletions b/‎paddle/fluid/framework/ir/adaptive_pool2d_convert_global_pass.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎paddle/fluid/framework/ir/map_matmul_to_mul_pass.cc‎
Lines changed: 70 additions & 0 deletions b/‎paddle/fluid/framework/ir/map_matmul_to_mul_pass.cc‎
Lines changed: 70 additions & 0 deletions
diff --git a/‎paddle/fluid/framework/ir/map_matmul_to_mul_pass.h‎
Lines changed: 1 addition & 0 deletions b/‎paddle/fluid/framework/ir/map_matmul_to_mul_pass.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎paddle/fluid/pybind/op_function.h‎
Lines changed: 16 additions & 8 deletions b/‎paddle/fluid/pybind/op_function.h‎
Lines changed: 16 additions & 8 deletions
diff --git a/‎paddle/scripts/paddle_build.sh‎
Lines changed: 18 additions & 1 deletion b/‎paddle/scripts/paddle_build.sh‎
Lines changed: 18 additions & 1 deletion
diff --git a/‎python/paddle/distributed/collective.py‎
Lines changed: 81 additions & 10 deletions b/‎python/paddle/distributed/collective.py‎
Lines changed: 81 additions & 10 deletions
diff --git a/‎python/paddle/distributed/fleet/meta_optimizers/ascend/ascend_parser.py‎
Lines changed: 7 additions & 7 deletions b/‎python/paddle/distributed/fleet/meta_optimizers/ascend/ascend_parser.py‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎python/paddle/fluid/tests/unittests/asp/test_asp_pruning_2d_best.py‎
Lines changed: 1 addition & 0 deletions b/‎python/paddle/fluid/tests/unittests/asp/test_asp_pruning_2d_best.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎python/paddle/fluid/tests/unittests/npu/test_collective_base_npu.py‎
Lines changed: 1 addition & 0 deletions b/‎python/paddle/fluid/tests/unittests/npu/test_collective_base_npu.py‎
Lines changed: 1 addition & 0 deletions
@@ -24,6 +24,46 @@ namespace paddle {
 namespace framework {
 namespace ir {
 
+AdaptivePool2dConvertGlobalPass::AdaptivePool2dConvertGlobalPass() {
+  AddOpCompat(OpCompat("pool2d"))
+      .AddInput("X")
+      .IsTensor()
+      .End()
+      .AddOutput("Out")
+      .IsTensor()
+      .End()
+      .AddAttr("pooling_type")
+      .IsStringIn({"max", "avg"})
+      .End()
+      .AddAttr("ksize")
+      .IsType<std::vector<int>>()
+      .End()
+      .AddAttr("global_pooling")
+      .IsBoolEQ(true)
+      .End()
+      .AddAttr("strides")
+      .IsType<std::vector<int>>()
+      .End()
+      .AddAttr("paddings")
+      .IsType<std::vector<int>>()
+      .End()
+      .AddAttr("exclusive")
+      .IsType<bool>()
+      .End()
+      .AddAttr("adaptive")
+      .IsBoolEQ(false)
+      .End()
+      .AddAttr("ceil_mode")
+      .IsType<bool>()
+      .End()
+      .AddAttr("data_format")
+      .IsStringIn({"NHWC", "NCHW"})
+      .End()
+      .AddAttr("padding_algorithm")
+      .IsStringIn({"EXPLICIT", "SAME", "VALID"})
+      .End();
+}
+
 void AdaptivePool2dConvertGlobalPass::ApplyImpl(ir::Graph* graph) const {
   std::string name_scope = "adaptive_pool2d_convert_global_pass";
   FusePassBase::Init(name_scope, graph);
 
@@ -31,6 +31,7 @@ class Graph;
  */
 class AdaptivePool2dConvertGlobalPass : public FusePassBase {
  public:
+  AdaptivePool2dConvertGlobalPass();
   virtual ~AdaptivePool2dConvertGlobalPass() {}
 
  protected:
 
@@ -267,6 +267,68 @@ void Squeeze2MatmulFusePass::ApplyImpl(ir::Graph* graph) const {
   AddStatis(found_count);
 }
 
+Reshape2MatmulFusePass::Reshape2MatmulFusePass() {
+  AddOpCompat(OpCompat("reshape2"))
+      .AddInput("X")
+      .IsTensor()
+      .End()
+      .AddInput("Shape")
+      .IsTensor()
+      .IsOptional()
+      .End()
+      .AddInput("ShapeTensor")
+      .IsTensor()
+      .IsOptional()
+      .End()
+      .AddOutput("Out")
+      .IsTensor()
+      .End()
+      .AddOutput("XShape")
+      .IsTensor()
+      .End()
+      .AddAttr("shape")  // ints
+      .IsType<std::vector<int>>()
+      .End();
+
+  AddOpCompat(OpCompat("matmul"))
+      .AddInput("X")
+      .IsTensor()
+      .End()
+      .AddInput("Y")
+      .IsTensor()
+      .End()
+      .AddOutput("Out")
+      .IsTensor()
+      .End()
+      .AddAttr("alpha")
+      .IsNumGT(0.99999f)
+      .IsNumLT(1.00001f)
+      .End()
+      .AddAttr("transpose_X")
+      .IsBoolEQ("False")
+      .End()
+      .AddAttr("transpose_Y")
+      .IsBoolEQ("False")
+      .End();
+
+  AddOpCompat(OpCompat("mul"))
+      .AddInput("X")
+      .IsTensor()
+      .End()
+      .AddInput("Y")
+      .IsTensor()
+      .End()
+      .AddOutput("Out")
+      .IsTensor()
+      .End()
+      .AddAttr("x_num_col_dims")
+      .IsNumEQ(1)
+      .End()
+      .AddAttr("y_num_col_dims")
+      .IsNumEQ(1)
+      .End();
+}
+
 void Reshape2MatmulFusePass::ApplyImpl(ir::Graph* graph) const {
   PADDLE_ENFORCE_NOT_NULL(
       graph, platform::errors::InvalidArgument("Graph cannot be nullptr."));
@@ -280,6 +342,10 @@ void Reshape2MatmulFusePass::ApplyImpl(ir::Graph* graph) const {
   int found_count = 0;
   auto handler = [&](const GraphPatternDetector::subgraph_t& subgraph,
                      Graph* g) {
+    if (!IsCompat(subgraph, g)) {
+      LOG(WARNING) << "Pass in op compat failed.";
+      return;
+    }
     VLOG(4) << "fuse reshape2+matmul to mul";
     GET_IR_NODE_FROM_SUBGRAPH(reshape2_in_x, reshape2_in_x, fuse_pattern);
     GET_IR_NODE_FROM_SUBGRAPH(reshape2_op, reshape2_op, fuse_pattern);
@@ -326,6 +392,10 @@ void Reshape2MatmulFusePass::ApplyImpl(ir::Graph* graph) const {
         desc.SetAttr("X_scale", matmul_op->Op()->GetAttr("X_scale"));
         desc.SetAttr("weight_scale", matmul_op->Op()->GetAttr("weight_scale"));
       }
+      if (!IsCompat(desc)) {
+        LOG(WARNING) << "reshape2 matmul pass in out mul op compat failed.";
+        return;
+      }
       auto mul_node = g->CreateOpNode(&desc);
       IR_NODE_LINK_TO(reshape2_in_x, mul_node);
       IR_NODE_LINK_TO(matmul_in_y, mul_node);
 
@@ -96,6 +96,7 @@ class Squeeze2MatmulFusePass : public FusePassBase {
 
 class Reshape2MatmulFusePass : public FusePassBase {
  public:
+  Reshape2MatmulFusePass();
   virtual ~Reshape2MatmulFusePass() {}
 
  protected:
 
@@ -209,11 +209,16 @@ inline bool PyObject_CheckLongOrToLong(PyObject** obj) {
       PyObject_IsInstance(*obj, (PyObject*)g_varbase_pytype)) {  // NOLINT
     return true;
   }
-  auto to = PyNumber_Long(*obj);
-  if (to) {
-    *obj = to;
-    return true;
+
+  if (std::string(((PyTypeObject*)(*obj)->ob_type)->tp_name)  // NOLINT
+          .find("numpy") != std::string::npos) {
+    auto to = PyNumber_Long(*obj);
+    if (to) {
+      *obj = to;
+      return true;
+    }
   }
+
   return false;
 }
 
@@ -223,10 +228,13 @@ inline bool PyObject_CheckFloatOrToFloat(PyObject** obj) {
       PyObject_IsInstance(*obj, (PyObject*)g_varbase_pytype)) {  // NOLINT
     return true;
   }
-  auto to = PyNumber_Float(*obj);
-  if (to) {
-    *obj = to;
-    return true;
+  if (std::string(((PyTypeObject*)(*obj)->ob_type)->tp_name)  // NOLINT
+          .find("numpy") != std::string::npos) {
+    auto to = PyNumber_Float(*obj);
+    if (to) {
+      *obj = to;
+      return true;
+    }
   }
   return false;
 }
 
@@ -1445,7 +1445,6 @@ function precise_card_test_single {
             mkdir ${PADDLE_ROOT}/build/ut_map/$case
         fi
         set -x
-        mkdir ${PADDLE_ROOT}/build/ut_map/$case
         find paddle/fluid -name '*.gcda'|xargs -I {} cp --path {} ut_map/$case
         find paddle/fluid -name '*.gcno'|xargs -I {} cp --path {} ut_map/$case
         python ${PADDLE_ROOT}/tools/get_single_test_cov.py ${PADDLE_ROOT} $case &
@@ -2142,6 +2141,23 @@ function reuse_so_cache() {
     fi
 }
 
+function find_temporary_files() {
+    set +x
+    jsonData=`curl \
+            -H "Authorization: token ${GITHUB_API_TOKEN}"\
+            -H "Accept: application/vnd.github.v3+json" \
+            https://api.github.com/repos/PaddlePaddle/Paddle/pulls/${GIT_PR_ID}/files`
+    
+    result=`echo ${jsonData}|python ${PADDLE_ROOT}/tools/check_file_suffix.py`
+    
+    if [ ${#result} -gt 0 ]
+    then
+	echo ${result}
+	exit 65
+    fi
+}
+
+
 function main() {
     local CMD=$1 
     local parallel_number=$2
@@ -2154,6 +2170,7 @@ function main() {
         set +e
         check_style_info=$(check_style)
         check_style_code=$?
+        find_temporary_files
         generate_upstream_develop_api_spec ${PYTHON_ABI:-""} ${parallel_number}
         cmake_gen_and_build ${PYTHON_ABI:-""} ${parallel_number}
         check_sequence_op_unittest
 
@@ -1219,6 +1219,65 @@ def _parallel_embedding(x,
     return out
 
 
+def _parallel_embedding_npu(x,
+                            per_part_embeddings,
+                            origin_size,
+                            param_attr,
+                            inner_rank,
+                            num_partitions,
+                            name,
+                            group=None):
+    """
+    NPU Parallel Embedding
+    """
+    if group is not None and not group.is_member():
+        return
+    ring_id = 0 if group is None else group.id
+
+    origin_num_embeddings = origin_size[0]
+    embedding = paddle.nn.Embedding(
+        per_part_embeddings,
+        origin_size[1],
+        padding_idx=per_part_embeddings - 1,
+        sparse=False,
+        weight_attr=param_attr,
+        name=name)
+
+    origin_input_shape = x.shape
+    if len(origin_input_shape) == 2:
+        x = paddle.unsqueeze(x, axis=-1)
+    else:
+        assert origin_input_shape[-1] == 1, (
+            "The last dimension size of x must be 1.")
+    x_shard = paddle.shard_index(x, origin_num_embeddings, num_partitions,
+                                 inner_rank, per_part_embeddings - 1)
+    if len(origin_input_shape) == 2:
+        x_shard = paddle.squeeze(x_shard, axis=-1)
+    emb_out = embedding(x_shard)
+    startup_block = paddle.static.default_startup_program().global_block()
+    main_block = paddle.static.default_main_program().global_block()
+    startup_block.vars[embedding.weight.name].is_distributed = True
+    main_block.vars[embedding.weight.name].is_distributed = True
+    out = main_block.create_var(
+        shape=emb_out.shape,
+        dtype=emb_out.dtype,
+        type=emb_out.type,
+        lod_level=emb_out.lod_level,
+        persistable=False,
+        is_data=False,
+        need_check_feed=emb_out.desc.need_check_feed())
+    main_block.append_op(
+        type='c_allreduce_sum',
+        inputs={'X': emb_out},
+        outputs={'Out': out},
+        attrs={
+            'ring_id': ring_id,
+            'use_calc_stream': True,
+            'use_model_parallel': True
+        })
+    return out
+
+
 def split(x,
           size,
           operation,
@@ -1332,16 +1391,28 @@ def split(x,
             "but received vocabulary={} num_partitions={}".format(size[0], num_partitions)
 
         per_part_size = size[0] // num_partitions
-        emb_out = _parallel_embedding(
-            x,
-            per_part_size,
-            size,
-            weight_attr,
-            inner_rank,
-            num_partitions,
-            name,
-            group=None)
-        return emb_out
+        if core.is_compiled_with_npu():
+            emb_out = _parallel_embedding_npu(
+                x,
+                per_part_size,
+                size,
+                weight_attr,
+                inner_rank,
+                num_partitions,
+                name,
+                group=None)
+            return emb_out
+        else:
+            emb_out = _parallel_embedding(
+                x,
+                per_part_size,
+                size,
+                weight_attr,
+                inner_rank,
+                num_partitions,
+                name,
+                group=None)
+            return emb_out
     else:
         should_split = False
         if axis == 0:
 
@@ -136,7 +136,7 @@ def dtype2ge(self, dtype):
 
     def dtype2np(self, index):
         assert index in self.dtype2np_map, "index[%d] is not supported %d" % (
-            dtype)
+            index)
         return self.dtype2np_map[index]
 
 
@@ -342,7 +342,7 @@ def _apply(self):
         y = self._get_ge_input(self.op.input_arg_names[1])
         pow = core.GEOperatorFactory.create_operator(
             "dotpow" + self._accumulated_op_id(),
-            "Pow").set_input("x1", x1).set_input("x2", y)
+            "Pow").set_input("x1", x).set_input("x2", y)
         return [pow], [[0]]
 
 
@@ -918,15 +918,15 @@ def _apply(self):
             scatter_value = core.GEOperatorFactory.create_operator(
                 "scatter" + self._accumulated_op_id(),
                 "TensorScatterAdd").set_input(
-                    "x", x_var).set_input("indices", index_var).set_input(
-                        "updates", updatesi_var)
+                    "x", x).set_input("indices", index).set_input("updates",
+                                                                  updates)
         else:
             scatter_value = core.GEOperatorFactory.create_operator(
                 "scatter" + self._accumulated_op_id(),
                 "TensorScatterUpdate").set_input(
-                    "x", x_var).set_input("indices", index_var).set_input(
-                        "updates", updates_var)
-        return [x_var, index_var, updates_var, scatter_value], [[-1]]
+                    "x", x).set_input("indices", index).set_input("updates",
+                                                                  updates)
+        return [x, index, updates, scatter_value], [[-1]]
 
 
 class CastParser(AscendParserBase):
 
@@ -16,6 +16,7 @@
 from __future__ import print_function
 
 import paddle
+import unittest
 from paddle.fluid.contrib import sparsity
 from paddle.fluid.tests.unittests.asp.asp_pruning_base import TestASPHelperPruningBase
 
 
@@ -27,6 +27,7 @@
 import paddle.fluid as fluid
 import paddle.fluid.unique_name as nameGen
 from paddle.fluid import core
+from six import string_types
 
 
 class TestCollectiveRunnerBase(object):