[SPARK-33938][SQL] Optimize Like Any/All by LikeSimplification #30975

beliefer · 2020-12-30T11:02:32Z

What changes were proposed in this pull request?

We should optimize Like Any/All by LikeSimplification to improve performance.

Why are the changes needed?

Optimize Like Any/All

Does this PR introduce any user-facing change?

'No'.

How was this patch tested?

Jenkins test.

SparkQA · 2021-01-05T02:15:04Z

Test build #133635 has finished for PR 30975 at commit fec4fe5.

This patch fails Scala style tests.
This patch merges cleanly.
This patch adds the following public classes (experimental):
class SequenceFileRDDFunctions[K: IsWritable: ClassTag, V: IsWritable: ClassTag](
case class ResolvedTable(
case class StringTrim(srcStr: Expression, trimStr: Option[Expression] = None)
case class StringTrimLeft(srcStr: Expression, trimStr: Option[Expression] = None)
case class StringTrimRight(srcStr: Expression, trimStr: Option[Expression] = None)
case class DescribeColumnExec(

SparkQA · 2021-01-05T04:09:39Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38208/

SparkQA · 2021-01-05T04:39:24Z

Kubernetes integration test status success
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38208/

SparkQA · 2021-01-05T04:48:53Z

Test build #133619 has finished for PR 30975 at commit b6ba902.

This patch passes all tests.
This patch does not merge cleanly.
This patch adds no public classes.

SparkQA · 2021-01-05T05:54:41Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38226/

SparkQA · 2021-01-05T06:23:56Z

Kubernetes integration test status success
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38226/

cloud-fan · 2021-01-05T07:40:29Z

sql/catalyst/src/main/scala/org/apache/spark/sql/QueryCompilationErrors.scala

@@ -504,4 +504,8 @@ object QueryCompilationErrors {
  def columnDoesNotExistError(colName: String): Throwable = {
    new AnalysisException(s"Column $colName does not exist")
  }
+
+  def cannotSimplifyMultiLikeError(multi: MultiLikeBase): Throwable = {


we can remove it now.

SparkQA · 2021-01-05T08:15:04Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38243/

SparkQA · 2021-01-05T08:44:26Z

Kubernetes integration test status success
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38243/

SparkQA · 2021-01-05T08:52:22Z

Test build #133641 has finished for PR 30975 at commit 52ecedd.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

SparkQA · 2021-01-05T09:12:14Z

Test build #133669 has finished for PR 30975 at commit e2c7dfe.

This patch fails to build.
This patch merges cleanly.
This patch adds no public classes.

SparkQA · 2021-01-05T09:40:21Z

Test build #133654 has finished for PR 30975 at commit 454a68b.

This patch fails Spark unit tests.
This patch merges cleanly.
This patch adds the following public classes (experimental):
sealed trait LikeAllBase extends MultiLikeBase
sealed trait LikeAnyBase extends MultiLikeBase

SparkQA · 2021-01-05T09:55:46Z

Test build #133665 has finished for PR 30975 at commit 8f26d1b.

This patch fails Spark unit tests.
This patch merges cleanly.
This patch adds the following public classes (experimental):
sealed abstract class LikeAllBase extends MultiLikeBase
sealed abstract class LikeAnyBase extends MultiLikeBase

SparkQA · 2021-01-05T12:51:17Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38270/

SparkQA · 2021-01-05T13:20:49Z

Kubernetes integration test status success
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/38270/

SparkQA · 2021-01-05T16:20:10Z

Test build #133681 has finished for PR 30975 at commit 6acf1c1.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

cloud-fan · 2021-01-06T08:24:50Z

The optimization was already there before we add the LikeAll expression in #29999 , so this PR fixes a perf regression in 3.1. Thanks, merging to master/3.1!

cloud-fan · 2021-01-06T08:26:57Z

It has conflicts with 3.1, @beliefer can you create a backport PR?

beliefer · 2021-01-06T08:30:23Z

It has conflicts with 3.1, @beliefer can you create a backport PR?

OK.

beliefer · 2021-01-06T08:33:22Z

@cloud-fan Thanks for your work!

wangyum · 2021-01-07T04:52:31Z

sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/expressions.scala

+      multi
+    } else {
+      multi match {
+        case l: LikeAll => And(replacements.reduceLeft(And), l.copy(patterns = remainPatterns))


It may cause StackOverflowError.

scala> spark.sql("drop table SPARK_33938") res6: org.apache.spark.sql.DataFrame = [] scala> spark.sql("create table SPARK_33938(id string) using parquet") res7: org.apache.spark.sql.DataFrame = [] scala> val values = Range(1, 10000) values: scala.collection.immutable.Range = Range 1 until 10000 scala> spark.sql(s"select * from SPARK_33938 where id like all (${values.map(s => s"'$s'").mkString(", ")})").show java.lang.StackOverflowError at java.lang.ThreadLocal.set(ThreadLocal.java:201) at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.set(TreeNode.scala:62) at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:72) at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:317) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$3(TreeNode.scala:322) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$mapChildren$1(TreeNode.scala:407) at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:243) at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:405) at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:358) at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:322) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$3(TreeNode.scala:322) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$mapChildren$1(TreeNode.scala:407) at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:243) at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:405) at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:358)

@wangyum I will fix this issue.

For example, patterns a, b, c, d, e, and f. Suppose a, b, c, and d are patterns that can be optimized with startsWith. According to the current logic, it is startsWith(a)&startsWith(b)&startsWith(c)&startsWith(d)&LikeAll(e,f). Their hierarchy is not shown here.
We can use the threshold to determine the number of patterns that can be optimized, for example, only two patterns can be optimized. Then it is startsWith(a)&startsWith(b)&LikeAll(c,d,e,f)

beliefer and others added 30 commits June 19, 2020 10:36

Reuse completeNextStageWithFetchFailure

4a6f903

Merge remote-tracking branch 'upstream/master'

96456e2

Merge remote-tracking branch 'upstream/master'

4314005

Merge remote-tracking branch 'upstream/master'

d6af4a7

Merge remote-tracking branch 'upstream/master'

f69094f

Merge remote-tracking branch 'upstream/master'

b86a42d

Merge branch 'master' of github.com:beliefer/spark

2ac5159

Merge remote-tracking branch 'upstream/master'

9021d6c

Merge branch 'master' of github.com:beliefer/spark

74a2ef4

Merge remote-tracking branch 'upstream/master'

9828158

Merge remote-tracking branch 'upstream/master'

9cd1aaf

Merge remote-tracking branch 'upstream/master'

abfcbb9

Merge remote-tracking branch 'upstream/master'

07c6c81

Merge remote-tracking branch 'upstream/master'

580130b

Merge branch 'master' of github.com:beliefer/spark

3712808

Merge remote-tracking branch 'upstream/master'

6107413

Merge remote-tracking branch 'upstream/master'

4b799b4

Merge remote-tracking branch 'upstream/master'

ee0ecbf

Merge remote-tracking branch 'upstream/master'

596bc61

Merge remote-tracking branch 'upstream/master'

0164e2f

Merge remote-tracking branch 'upstream/master'

90b79fc

Merge remote-tracking branch 'upstream/master'

2cef3a9

Merge remote-tracking branch 'upstream/master'

c26b64f

Merge remote-tracking branch 'upstream/master'

2e02cd2

Merge remote-tracking branch 'upstream/master'

a6d0741

Merge remote-tracking branch 'upstream/master'

82e5b2c

Merge remote-tracking branch 'upstream/master'

70bbf5d

Merge remote-tracking branch 'upstream/master'

126a51e

Merge remote-tracking branch 'upstream/master'

f2ceacd

Merge remote-tracking branch 'upstream/master'

5ad208f

Merge branch 'master' into SPARK-33938

fec4fe5

Remove Whitespace

52ecedd

beliefer added 2 commits January 5, 2021 14:46

Optimize code

454a68b

Adjust code

8f26d1b

cloud-fan reviewed Jan 5, 2021

View reviewed changes

Update code

e2c7dfe

Update code

6acf1c1

cloud-fan approved these changes Jan 6, 2021

View reviewed changes

cloud-fan closed this in 26d8df3 Jan 6, 2021

wangyum reviewed Jan 7, 2021

View reviewed changes

cloud-fan mentioned this pull request Jan 11, 2021

[SPARK-33938][SQL][3.1] Optimize Like Any/All by LikeSimplification #31063

Closed

[SPARK-33938][SQL] Optimize Like Any/All by LikeSimplification #30975

[SPARK-33938][SQL] Optimize Like Any/All by LikeSimplification #30975

Uh oh!

Conversation

beliefer commented Dec 30, 2020

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

cloud-fan Jan 5, 2021

Choose a reason for hiding this comment

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

SparkQA commented Jan 5, 2021

Uh oh!

cloud-fan commented Jan 6, 2021

Uh oh!

cloud-fan commented Jan 6, 2021

Uh oh!

beliefer commented Jan 6, 2021

Uh oh!

beliefer commented Jan 6, 2021

Uh oh!

wangyum Jan 7, 2021

Choose a reason for hiding this comment

Uh oh!

beliefer Jan 7, 2021

Choose a reason for hiding this comment

Uh oh!

beliefer Jan 7, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

beliefer Jan 7, 2021 •

edited

Loading