PaddlePaddle
diff --git a/‎paddle/cinn/hlir/dialect/operator/transforms/add_broadcast_to_elementwise_pass.cc‎
Lines changed: 18 additions & 0 deletions b/‎paddle/cinn/hlir/dialect/operator/transforms/add_broadcast_to_elementwise_pass.cc‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎paddle/cinn/hlir/dialect/operator/transforms/add_cinn_pass.cc‎
Lines changed: 2 additions & 0 deletions b/‎paddle/cinn/hlir/dialect/operator/transforms/add_cinn_pass.cc‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.cc‎
Lines changed: 171 additions & 0 deletions b/‎paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.cc‎
Lines changed: 171 additions & 0 deletions
diff --git a/‎paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.h‎
Lines changed: 28 additions & 0 deletions b/‎paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.h‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎paddle/cinn/hlir/pe/transform.cc‎
Lines changed: 35 additions & 3 deletions b/‎paddle/cinn/hlir/pe/transform.cc‎
Lines changed: 35 additions & 3 deletions
diff --git a/‎paddle/fluid/inference/api/paddle_pass_builder.cc‎
Lines changed: 3 additions & 1 deletion b/‎paddle/fluid/inference/api/paddle_pass_builder.cc‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/binary_infer_sym.cc‎
Lines changed: 14 additions & 4 deletions b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/binary_infer_sym.cc‎
Lines changed: 14 additions & 4 deletions
@@ -107,6 +107,14 @@ bool ProcessOp(pir::Operation* op, pir::PatternRewriter* rewriter) {
 
   if (x_dims != y_dims) {
     auto output_shape = GetOutputShape(x_dims, y_dims);
+    pir::ShapeConstraintIRAnalysis& shape_analysis =
+        pir::ShapeAnalysisManager::Instance().Get(op->GetParentProgram());
+    std::vector<symbol::DimExpr> out_dim;
+    out_dim.reserve(output_shape.size());
+    for (auto d : output_shape) {
+      out_dim.emplace_back(d);
+    }
+
     if (!IsSameDim(x_dims, output_shape)) {
       // add broadcast to input 0
       if (auto full_op = op->operand_source(0)
@@ -122,13 +130,18 @@ bool ProcessOp(pir::Operation* op, pir::PatternRewriter* rewriter) {
                 .dyn_cast<paddle::dialect::PlaceAttribute>()
                 .data());
         op->operand(0).set_source(new_full->result(0));
+        shape_analysis.SetShapeOrDataForValue(
+            new_full.result(0), symbol::TensorShapeOrDataDimExprs(out_dim));
       } else {
         auto new_transpose_op = rewriter->Build<cinn::dialect::BroadcastOp>(
             op->operand_source(0),
             cinn::hlir::framework::pir::GetBroadcastAxis(x_dims, output_shape),
             output_shape);
 
         op->operand(0).set_source(new_transpose_op->result(0));
+        shape_analysis.SetShapeOrDataForValue(
+            new_transpose_op.result(0),
+            symbol::TensorShapeOrDataDimExprs(out_dim));
       }
     }
 
@@ -147,13 +160,18 @@ bool ProcessOp(pir::Operation* op, pir::PatternRewriter* rewriter) {
                 .data());
 
         op->operand(1).set_source(new_full->result(0));
+        shape_analysis.SetShapeOrDataForValue(
+            new_full.result(0), symbol::TensorShapeOrDataDimExprs(out_dim));
       } else {
         auto new_transpose_op = rewriter->Build<cinn::dialect::BroadcastOp>(
             op->operand_source(1),
             cinn::hlir::framework::pir::GetBroadcastAxis(y_dims, output_shape),
             output_shape);
 
         op->operand(1).set_source(new_transpose_op->result(0));
+        shape_analysis.SetShapeOrDataForValue(
+            new_transpose_op.result(0),
+            symbol::TensorShapeOrDataDimExprs(out_dim));
       }
     }
 
 
@@ -31,6 +31,7 @@
 #include "paddle/cinn/hlir/dialect/operator/transforms/cinn_group_cluster_pass.h"
 #include "paddle/cinn/hlir/dialect/operator/transforms/dynamic_reshape_pass.h"
 #include "paddle/cinn/hlir/dialect/operator/transforms/fold_manipulation_ops_pass.h"
+#include "paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.h"
 #include "paddle/cinn/hlir/dialect/operator/transforms/fuse_shape_ops_into_generate_shape_op_pass.h"
 #include "paddle/cinn/hlir/dialect/operator/transforms/group_merge/convert_dynamic_to_static_dim_pass.h"
 #include "paddle/cinn/hlir/dialect/operator/transforms/group_merge/convert_static_dim_to_dynamic_pass.h"
@@ -80,6 +81,7 @@ void ApplyPdToCinnPass(
     const std::function<std::shared_ptr<::pir::PassManager>()>&
         CreatePassManager) {
   std::shared_ptr<pir::PassManager> pass_manager = CreatePassManager();
+  pass_manager->AddPass(cinn::dialect::ir::CreateFuseParallelMatmulPass());
   pass_manager->AddPass(cinn::dialect::ir::CreatePdOpToCinnOpPass());
   pass_manager->AddPass(pir::CreateDeadCodeEliminationPass());
   pass_manager->Run(program);
 
@@ -0,0 +1,171 @@
+// Copyright (c) 2024 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include "paddle/cinn/hlir/dialect/operator/transforms/fuse_parallel_matmul_pass.h"
+
+#include "paddle/cinn/hlir/dialect/operator/ir/cinn_op.h"
+#include "paddle/cinn/hlir/dialect/operator/ir/manual_op.h"
+#include "paddle/cinn/hlir/framework/pir/utils.h"
+#include "paddle/common/ddim.h"
+#include "paddle/fluid/pir/dialect/operator/ir/op_attribute.h"
+#include "paddle/fluid/pir/dialect/operator/ir/op_type.h"
+#include "paddle/fluid/pir/dialect/operator/ir/pd_op.h"
+#include "paddle/pir/include/core/builtin_dialect.h"
+#include "paddle/pir/include/pass/pass.h"
+#include "paddle/pir/include/pattern_rewrite/frozen_rewrite_pattern_set.h"
+#include "paddle/pir/include/pattern_rewrite/pattern_applicator.h"
+#include "paddle/pir/include/pattern_rewrite/pattern_match.h"
+#include "paddle/pir/include/pattern_rewrite/pattern_rewrite_driver.h"
+
+namespace cinn {
+namespace dialect {
+namespace ir {
+
+class MergeParallelMatmulPattern
+    : public pir::OpRewritePattern<paddle::dialect::MatmulOp> {
+ public:
+  using pir::OpRewritePattern<paddle::dialect::MatmulOp>::OpRewritePattern;
+
+  bool MatchAndRewrite(paddle::dialect::MatmulOp matmul_op,
+                       pir::PatternRewriter& rewriter) const override {
+    auto ValidMatmulTranspose = [&](pir::Operation* op) -> bool {
+      if (!op->dyn_cast<paddle::dialect::MatmulOp>()) {
+        return false;
+      }
+      bool trans_x =
+          op->attribute("transpose_x").dyn_cast<pir::BoolAttribute>().data();
+      bool trans_y =
+          op->attribute("transpose_y").dyn_cast<pir::BoolAttribute>().data();
+      return !trans_x && !trans_y;
+    };
+    if (!ValidMatmulTranspose(matmul_op)) {
+      return false;
+    }
+
+    auto VectorPrefixEqual = [](const std::vector<std::int64_t>& a,
+                                const std::vector<std::int64_t>& b) {
+      if (a.size() != b.size()) {
+        return false;
+      }
+      for (int i = 0; i < a.size() - 1; ++i) {
+        if (a[i] != b[i]) {
+          return false;
+        }
+      }
+      return true;
+    };
+
+    auto input_x = matmul_op.operand_source(0);
+    const std::vector<pir::Operation*> merge_ops = [&]() {
+      std::vector<pir::Operation*> ret;
+      std::optional<std::vector<std::int64_t>> pre_dim;
+      std::vector<std::int64_t> cur_dim;
+      for (auto it = input_x.use_begin(); it != input_x.use_end(); ++it) {
+        if (!ValidMatmulTranspose(it->owner())) {
+          continue;
+        }
+        if (!pre_dim.has_value()) {
+          pre_dim = ::common::vectorize(
+              it->owner()
+                  ->operand_source(1)
+                  .type()
+                  .dyn_cast<paddle::dialect::DenseTensorType>()
+                  .dims());
+        }
+        cur_dim = ::common::vectorize(
+            it->owner()
+                ->operand_source(1)
+                .type()
+                .dyn_cast<paddle::dialect::DenseTensorType>()
+                .dims());
+        if (VectorPrefixEqual(pre_dim.value(), cur_dim)) {
+          ret.push_back(it->owner());
+        }
+      }
+      return ret;
+    }();
+    if (merge_ops.size() <= 1) {
+      return false;
+    }
+
+    const std::vector<pir::Value> combine_ins = [&]() {
+      std::vector<pir::Value> ret;
+      for (pir::Operation* op : merge_ops) {
+        ret.push_back(op->operand_source(1));
+      }
+      return ret;
+    }();
+    const std::vector<std::int64_t> combine_shapes = [&]() {
+      std::vector<std::int64_t> ret{0};
+      std::int64_t accumulate = 0;
+      for (pir::Value input : combine_ins) {
+        auto shape =
+            input.type().dyn_cast<paddle::dialect::DenseTensorType>().dims();
+        accumulate += shape[shape.size() - 1];
+        ret.push_back(accumulate);
+      }
+      return ret;
+    }();
+
+    auto combine_out = rewriter.Build<pir::CombineOp>(combine_ins).result(0);
+    auto concat_out =
+        rewriter.Build<paddle::dialect::ConcatOp>(combine_out, -1).result(0);
+    auto matmul_out =
+        rewriter.Build<paddle::dialect::MatmulOp>(input_x, concat_out)
+            .result(0);
+
+    for (size_t i = 0; i < merge_ops.size(); ++i) {
+      auto split_out =
+          rewriter
+              .Build<paddle::dialect::SliceOp>(
+                  matmul_out,
+                  std::vector<std::int64_t>{
+                      matmul_out.type()
+                          .dyn_cast<paddle::dialect::DenseTensorType>()
+                          .dims()
+                          .size() -
+                      1},
+                  std::vector<std::int64_t>{combine_shapes[i]},
+                  std::vector<int64_t>{combine_shapes[i + 1]},
+                  std::vector<std::int64_t>{},
+                  std::vector<std::int64_t>{})
+              .result(0);
+
+      rewriter.ReplaceAllUsesWith(merge_ops[i]->result(0), split_out);
+      rewriter.EraseOp(merge_ops[i]);
+    }
+
+    return true;
+  }
+};
+
+class FuseParallelMatmulPass : public pir::PatternRewritePass {
+ public:
+  FuseParallelMatmulPass()
+      : pir::PatternRewritePass("fuse_parallel_matmul_pass", 1) {}
+
+  pir::RewritePatternSet InitializePatterns(pir::IrContext* context) override {
+    pir::RewritePatternSet ps(context);
+    ps.Add<MergeParallelMatmulPattern>(context);
+    return ps;
+  }
+};
+
+std::unique_ptr<pir::Pass> CreateFuseParallelMatmulPass() {
+  return std::make_unique<FuseParallelMatmulPass>();
+}
+
+}  // namespace ir
+}  // namespace dialect
+}  // namespace cinn
@@ -0,0 +1,28 @@
+// Copyright (c) 2024 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#pragma once
+
+#include <memory>
+#include "paddle/pir/include/pass/pass.h"
+
+namespace cinn {
+namespace dialect {
+namespace ir {
+
+IR_API std::unique_ptr<pir::Pass> CreateFuseParallelMatmulPass();
+
+}  // namespace ir
+}  // namespace dialect
+}  // namespace cinn
@@ -27,6 +27,7 @@
 #include "paddle/cinn/lang/builtin.h"
 #include "paddle/cinn/lang/compute.h"
 #include "paddle/cinn/utils/string.h"
+#include "paddle/common/errors.h"
 
 namespace cinn {
 namespace hlir {
@@ -425,8 +426,9 @@ ir::Tensor Concat(const ir::Tensor& A,
 ir::Tensor Concat(const std::vector<ir::Tensor>& input_tensors,
                   int axis,
                   const std::string& name) {
+  // input size 1 is valid for Concat
   int input_size = input_tensors.size();
-  CHECK_GE(input_size, 2U) << "Concat should have at least 2 input tensors";
+  CHECK_GE(input_size, 1U) << "Concat should have at least 1 input tensors";
   std::vector<Expr> output_shape = input_tensors[0]->shape;
   int input_dim = output_shape.size();
   CHECK(axis >= -input_dim && axis < input_dim)
@@ -1057,7 +1059,7 @@ ir::Tensor Transpose(const ir::Tensor& input,
 
 ir::Tensor Slice(const ir::Tensor& A,
                  const std::vector<int>& starts,
-                 const std::vector<int>& axes,
+                 const std::vector<int>& const_axes,
                  const std::vector<int>& strides,
                  const std::vector<int>& decrease_axis,
                  const std::vector<Expr>& output_shape,
@@ -1066,6 +1068,21 @@ ir::Tensor Slice(const ir::Tensor& A,
   for (const auto& shape : A->shape) {
     input_shape.emplace_back(shape.as_int32());
   }
+  std::vector<int> axes;
+  std::transform(const_axes.begin(),
+                 const_axes.end(),
+                 std::back_inserter(axes),
+                 [rank = A->shape.size()](const int axis) -> int {
+                   if (axis < 0) {
+                     PADDLE_ENFORCE_GE(
+                         axis + rank,
+                         0,
+                         ::common::errors::InvalidArgument(
+                             "The axis of slice is out of range"));
+                     return axis + rank;
+                   }
+                   return axis;
+                 });
   std::vector<int> new_starts(starts);
   for (int i = 0; i < axes.size(); i++) {
     if (new_starts[i] < -input_shape[axes[i]]) {
@@ -1110,7 +1127,7 @@ ir::Tensor Slice(const ir::Tensor& A,
 
 ir::Tensor SliceSymbolic(const ir::Tensor& A,
                          const std::vector<int>& starts,
-                         const std::vector<int>& axes,
+                         const std::vector<int>& const_axes,
                          const std::vector<int>& strides,
                          const std::vector<int>& decrease_axis,
                          const std::vector<Expr>& output_shape,
@@ -1125,6 +1142,21 @@ ir::Tensor SliceSymbolic(const ir::Tensor& A,
                  starts.end(),
                  std::back_inserter(new_starts),
                  [](const int start) { return ir::Expr(start); });
+  std::vector<int> axes;
+  std::transform(const_axes.begin(),
+                 const_axes.end(),
+                 std::back_inserter(axes),
+                 [rank = A->shape.size()](const int axis) -> int {
+                   if (axis < 0) {
+                     PADDLE_ENFORCE_GE(
+                         axis + rank,
+                         0,
+                         ::common::errors::InvalidArgument(
+                             "The axis of slice is out of range"));
+                     return axis + rank;
+                   }
+                   return axis;
+                 });
 
   for (int i = 0; i < axes.size(); i++) {
     if (input_shape[axes[i]].is_constant()) {
 
@@ -629,10 +629,12 @@ const std::vector<std::string> kPirMkldnnPasses{
     "matmul_transpose_reshape_fuse_pass",
     "matmul_elementwise_add_fuse_pass",
     "matmul_activation_fuse_pass",
+    "softplus_activation_fuse_pass",
     "conv_elementwise_add_onednn_fuse_pass",
     "conv_activation_onednn_fuse_pass",
     "conv_concat_activation_onednn_fuse_pass",
-    "elementwise_act_onednn_fuse_pass"};
+    "elementwise_act_onednn_fuse_pass",
+    "operator_unsqueeze_onednn_fuse_pass"};
 
 const std::vector<std::string> kPirCpuPasses{};
 
 
@@ -204,10 +204,20 @@ bool SparseWeightEmbeddingOpInferSymbolicShape(
 
 bool ExpandAsOpInferSymbolicShape(
     pir::Operation *op, pir::ShapeConstraintIRAnalysis *shape_analysis) {
-  PADDLE_THROW(phi::errors::Unimplemented(
-      op->name() +
-      " 's InferSymbolicShape interface is NOT implemented "
-      "now because of the lack of necessary information."));
+  std::vector<int> target_shape =
+      paddle::dialect::details::GetVectorAttr<int>(op, "target_shape");
+  const std::vector<symbol::DimExpr> &output_dims = [&] {
+    std::vector<symbol::DimExpr> output_dims;
+    output_dims.reserve(target_shape.size());
+    for (int shape : target_shape) {
+      output_dims.push_back(shape);
+    }
+    return output_dims;
+  }();
+
+  shape_analysis->SetShapeOrDataForValue(
+      op->result(0), symbol::TensorShapeOrDataDimExprs(output_dims));
+
   return true;
 }