Address comments

wangyum · wangyum · commit e12fd14f4de8 · 2022-03-09T21:45:56.000+08:00
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/RemoveRedundantAggregates.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/RemoveRedundantAggregates.scala
@@ -18,7 +18,7 @@
 package org.apache.spark.sql.catalyst.optimizer
 
 import org.apache.spark.sql.catalyst.analysis.PullOutNondeterministic
-import org.apache.spark.sql.catalyst.expressions.{AliasHelper, AttributeSet, ExpressionSet}
+import org.apache.spark.sql.catalyst.expressions.{Alias, AliasHelper, AttributeSet, ExpressionSet}
 import org.apache.spark.sql.catalyst.expressions.aggregate.AggregateExpression
 import org.apache.spark.sql.catalyst.plans.logical.{Aggregate, LogicalPlan, Project}
 import org.apache.spark.sql.catalyst.rules.Rule
@@ -48,8 +48,15 @@ object RemoveRedundantAggregates extends Rule[LogicalPlan] with AliasHelper {
         newAggregate
       }
 
-     case agg @ Aggregate(groupingExps, _, child) if agg.groupOnly && child.deterministic &&
-         child.distinctKeys.exists(_.subsetOf(ExpressionSet(groupingExps))) =>
+     case agg @ Aggregate(groupingExps, _, child)
+         if agg.groupOnly && child.deterministic &&
+           child.distinctKeys.exists(_.subsetOf(ExpressionSet(groupingExps))) =>
+      Project(agg.aggregateExpressions, child)
+
+    case agg @ Aggregate(groupingExps, aggregateExps, child)
+        if aggregateExps.forall(a => a.isInstanceOf[Alias] && a.children.forall(_.foldable)) &&
+          child.deterministic &&
+          child.distinctKeys.exists(_.subsetOf(ExpressionSet(groupingExps))) =>
       Project(agg.aggregateExpressions, child)
   }
 
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/DistinctKeyVisitor.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/DistinctKeyVisitor.scala
@@ -80,16 +80,13 @@ object DistinctKeyVisitor extends LogicalPlanVisitor[Set[ExpressionSet]] {
   }
 
   override def visitJoin(p: Join): Set[ExpressionSet] = {
-    p.joinType match {
-      case LeftSemiOrAnti(_) => p.left.distinctKeys
-      case Inner =>
-        p match {
-          case ExtractEquiJoinKeys(_, leftKeys, rightKeys, _, _, _, _, _)
-              if p.left.distinctKeys.exists(_.subsetOf(ExpressionSet(leftKeys))) &&
-                p.right.distinctKeys.exists(_.subsetOf(ExpressionSet(rightKeys))) =>
-            Set(ExpressionSet(leftKeys), ExpressionSet(rightKeys))
-          case _ => default(p)
-        }
+    p match {
+      case Join(_, _, LeftSemiOrAnti(_), _, _) =>
+        p.left.distinctKeys
+      case ExtractEquiJoinKeys(Inner, leftKeys, rightKeys, _, _, _, _, _)
+        if p.left.distinctKeys.exists(_.subsetOf(ExpressionSet(leftKeys))) &&
+          p.right.distinctKeys.exists(_.subsetOf(ExpressionSet(rightKeys))) =>
+        Set(ExpressionSet(leftKeys), ExpressionSet(rightKeys))
       case _ => default(p)
     }
   }
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/LogicalPlanDistinctKeys.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/LogicalPlanDistinctKeys.scala
@@ -18,6 +18,7 @@
 package org.apache.spark.sql.catalyst.plans.logical
 
 import org.apache.spark.sql.catalyst.expressions.ExpressionSet
+import org.apache.spark.sql.internal.SQLConf.PROPAGATE_DISTINCT_KEYS_ENABLED
 
 /**
  * A trait to add distinct attributes to [[LogicalPlan]]. For example:
@@ -28,6 +29,6 @@ import org.apache.spark.sql.catalyst.expressions.ExpressionSet
  */
 trait LogicalPlanDistinctKeys { self: LogicalPlan =>
   lazy val distinctKeys: Set[ExpressionSet] = {
-    if (conf.propagateDistinctKeysEnabled) DistinctKeyVisitor.visit(self) else Set.empty
+    if (conf.getConf(PROPAGATE_DISTINCT_KEYS_ENABLED)) DistinctKeyVisitor.visit(self) else Set.empty
   }
 }
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala
@@ -3908,8 +3908,6 @@ class SQLConf extends Serializable with Logging {
 
   def constraintPropagationEnabled: Boolean = getConf(CONSTRAINT_PROPAGATION_ENABLED)
 
-  def propagateDistinctKeysEnabled: Boolean = getConf(PROPAGATE_DISTINCT_KEYS_ENABLED)
-
   def escapedStringLiterals: Boolean = getConf(ESCAPED_STRING_LITERALS)
 
   def fileCompressionFactor: Double = getConf(FILE_COMPRESSION_FACTOR)
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/optimizer/RemoveRedundantAggregatesSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/optimizer/RemoveRedundantAggregatesSuite.scala
@@ -23,7 +23,7 @@ import org.apache.spark.sql.catalyst.dsl.plans._
 import org.apache.spark.sql.catalyst.expressions.{Expression, PythonUDF}
 import org.apache.spark.sql.catalyst.expressions.Literal.TrueLiteral
 import org.apache.spark.sql.catalyst.plans.{LeftAnti, LeftSemi, PlanTest}
-import org.apache.spark.sql.catalyst.plans.logical.{LocalRelation, LogicalPlan}
+import org.apache.spark.sql.catalyst.plans.logical.{Distinct, LocalRelation, LogicalPlan}
 import org.apache.spark.sql.catalyst.rules.RuleExecutor
 import org.apache.spark.sql.types.IntegerType
 
@@ -230,7 +230,7 @@ class RemoveRedundantAggregatesSuite extends PlanTest {
     }
   }
 
-  test("SPARK-36194: Remove aggregation from aggregation") {
+  test("SPARK-36194: Child distinct keys is the subset of required keys") {
     val originalQuery = relation
       .groupBy('a)('a, count('b).as("cnt"))
       .groupBy('a, 'cnt)('a, 'cnt)
@@ -243,48 +243,38 @@ class RemoveRedundantAggregatesSuite extends PlanTest {
     comparePlans(optimized, correctAnswer)
   }
 
-  test("SPARK-36194: Negative case: The grouping expressions not same") {
-    Seq(LeftSemi, LeftAnti).foreach { joinType =>
-      val originalQuery = x.groupBy('a, 'b)('a, 'b)
-        .join(y, joinType, Some("x.a".attr === "y.a".attr && "x.b".attr === "y.b".attr))
-        .groupBy("x.a".attr)("x.a".attr)
-
-      val optimized = Optimize.execute(originalQuery.analyze)
-      comparePlans(optimized, originalQuery.analyze)
-    }
+  test("SPARK-36194: Child distinct keys are subsets and aggregateExpressions are foldable") {
+    val originalQuery = x.groupBy('a, 'b)('a, 'b)
+      .join(y, LeftSemi, Some("x.a".attr === "y.a".attr && "x.b".attr === "y.b".attr))
+      .groupBy("x.a".attr, "x.b".attr)(TrueLiteral)
+      .analyze
+    val correctAnswer = x.groupBy('a, 'b)('a, 'b)
+      .join(y, LeftSemi, Some("x.a".attr === "y.a".attr && "x.b".attr === "y.b".attr))
+      .select(TrueLiteral)
+      .analyze
+    val optimized = Optimize.execute(originalQuery)
+    comparePlans(optimized, correctAnswer)
   }
 
-  test("SPARK-36194: Negative case: The aggregate expressions not the sub aggregateExprs") {
+  test("SPARK-36194: Negative case: child distinct keys is not the subset of required keys") {
     Seq(LeftSemi, LeftAnti).foreach { joinType =>
-      val originalQuery = x.groupBy('a, 'b)('a, 'b)
+      val originalQuery1 = x.groupBy('a, 'b)('a, 'b)
         .join(y, joinType, Some("x.a".attr === "y.a".attr && "x.b".attr === "y.b".attr))
-        .groupBy("x.a".attr, "x.b".attr)(TrueLiteral)
-
-      val optimized = Optimize.execute(originalQuery.analyze)
-      comparePlans(optimized, originalQuery.analyze)
-    }
-  }
+        .groupBy("x.a".attr)("x.a".attr)
+        .analyze
+      comparePlans(Optimize.execute(originalQuery1), originalQuery1)
 
-  test("SPARK-36194: Negative case: The aggregate expressions not same") {
-    Seq(LeftSemi, LeftAnti).foreach { joinType =>
-      val originalQuery = x.groupBy('a, 'b)('a, 'b)
+      val originalQuery2 = x.groupBy('a, 'b)('a, 'b)
         .join(y, joinType, Some("x.a".attr === "y.a".attr && "x.b".attr === "y.b".attr))
         .groupBy("x.a".attr)(count("x.b".attr))
-
-      val optimized = Optimize.execute(originalQuery.analyze)
-      comparePlans(optimized, originalQuery.analyze)
+        .analyze
+      comparePlans(Optimize.execute(originalQuery2), originalQuery2)
     }
   }
 
-  test("SPARK-36194: Negative case: The aggregate expressions with Literal") {
-    Seq(LeftSemi, LeftAnti).foreach { joinType =>
-      val originalQuery = x.groupBy('a, 'b)('a, TrueLiteral)
-        .join(y, joinType, Some("x.a".attr === "y.a".attr))
-        .groupBy("x.a".attr)("x.a".attr, TrueLiteral)
-
-      val optimized = Optimize.execute(originalQuery.analyze)
-      comparePlans(optimized, originalQuery.analyze)
-    }
+  test("SPARK-36194: Negative case: child distinct keys is empty") {
+    val originalQuery = Distinct(x.groupBy('a, 'b)('a, TrueLiteral)).analyze
+    comparePlans(Optimize.execute(originalQuery), originalQuery)
   }
 
   test("SPARK-36194: Negative case: Remove aggregation from contains non-deterministic") {

Original file line number	Diff line number	Diff line change
`@@ -18,6 +18,7 @@`
`18`	`18`	`package org.apache.spark.sql.catalyst.plans.logical`
`19`	`19`
`20`	`20`	`import org.apache.spark.sql.catalyst.expressions.ExpressionSet`
	`21`	`+import org.apache.spark.sql.internal.SQLConf.PROPAGATE_DISTINCT_KEYS_ENABLED`
`21`	`22`
`22`	`23`	`/**`
`23`	`24`	`* A trait to add distinct attributes to [[LogicalPlan]]. For example:`
`@@ -28,6 +29,6 @@ import org.apache.spark.sql.catalyst.expressions.ExpressionSet`
`28`	`29`	`*/`
`29`	`30`	`trait LogicalPlanDistinctKeys { self: LogicalPlan =>`
`30`	`31`	`lazy val distinctKeys: Set[ExpressionSet] = {`
`31`		`- if (conf.propagateDistinctKeysEnabled) DistinctKeyVisitor.visit(self) else Set.empty`
	`32`	`+ if (conf.getConf(PROPAGATE_DISTINCT_KEYS_ENABLED)) DistinctKeyVisitor.visit(self) else Set.empty`
`32`	`33`	`}`
`33`	`34`	`}`