[SPARK-31735][CORE] Include all columns in the summary report

Fokko · Fokko · commit 4fcbc6d911c6 · 2020-05-16T19:33:08.000+02:00
For example, dates are missing from the export:

from datetime import datetime, timedelta, timezone
from pyspark.sql import types as T
from pyspark.sql import Row
from pyspark.sql import functions as F

START = datetime(2014, 1, 1, tzinfo=timezone.utc)

n_days = 22

date_range = [Row(date=(START + timedelta(days=n))) for n in range(0, n_days)]

schema = T.StructType([T.StructField(name="date", dataType=T.DateType(), nullable=False)])

rdd = spark.sparkContext.parallelize(date_range)

df = spark.createDataFrame(data=rdd, schema=schema)

df.agg(F.max("date")).show()

df.summary().show()
+-------+
|summary|
+-------+
|  count|
|   mean|
| stddev|
|    min|
|    25%|
|    50%|
|    75%|
|    max|
+-------+

Signed-off-by: Fokko Driesprong &lt;fokko@apache.org&gt;
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/stat/StatFunctions.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/stat/StatFunctions.scala
@@ -264,7 +264,6 @@ object StatFunctions extends Logging {
     }
 
     val selectedCols = ds.logicalPlan.output
-      .filter(a => a.dataType.isInstanceOf[NumericType] || a.dataType.isInstanceOf[StringType])
 
     val aggExprs = statisticFns.flatMap { func =>
       selectedCols.map(c => Column(Cast(func(c), StringType)).as(c.name))

Original file line number	Diff line number	Diff line change
`@@ -264,7 +264,6 @@ object StatFunctions extends Logging {`
`264`	`264`	`}`
`265`	`265`
`266`	`266`	`val selectedCols = ds.logicalPlan.output`
`267`		`- .filter(a => a.dataType.isInstanceOf[NumericType] \|\| a.dataType.isInstanceOf[StringType])`
`268`	`267`
`269`	`268`	`val aggExprs = statisticFns.flatMap { func =>`
`270`	`269`	`selectedCols.map(c => Column(Cast(func(c), StringType)).as(c.name))`