[CARBONDATA-622]unify file header reader #518

QiangCai · 2017-01-10T15:56:52Z

Scenario:
We can get file header from DDL command and CSV file.

If the file header comes from DDL command, should separate this file header by comma ","
if the file header comes from CSV file, should sparate this file header by specify delimiter in DDL command.

Changes:
Before data loading, generate file header at first, both dict generation and dataloading can directly use this file header(exclude Kettle flow).

CarbonDataQA · 2017-01-10T16:06:24Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/542/

CarbonDataQA · 2017-01-10T16:14:37Z

Build Failed with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/543/

CarbonDataQA · 2017-01-10T16:26:26Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/544/

jackylk · 2017-01-11T03:20:10Z

integration/spark-common/src/main/scala/org/apache/carbondata/spark/util/CommonUtil.scala

@@ -301,4 +304,45 @@ object CommonUtil {
      LOGGER.info(s"mapreduce.input.fileinputformat.split.maxsize: ${ newSplitSize.toString }")
    }
  }
+
+  def getCsvHeaderColumns(carbonLoadModel: CarbonLoadModel): Array[String] = {
+    val delimiter = if (StringUtils.isEmpty(carbonLoadModel.getCsvDelimiter)) {


I think delimiter can not be " ", right? so better to use isBlank instead of isEmpty

I think the delimiter maybe a blank " ", just like comma ",".
Customer should provide the proper delimiter in DDL command( default value is comma ",").

jackylk · 2017-01-11T03:30:58Z

integration/spark-common/src/main/scala/org/apache/carbondata/spark/util/CommonUtil.scala

+          + "not the same.")
+      } else {
+        LOGGER.error(
+          "CSV File provided is not proper. Column names in schema and csv header are not same. "


Better to tell "CSV header in the input file ($csvFile) is not proper."

jackylk · 2017-01-11T03:35:01Z

processing/src/main/java/org/apache/carbondata/processing/util/CarbonDataProcessorUtil.java

-      CarbonDataLoadSchema schema, String delimiter) throws DataLoadingException {
-    delimiter = CarbonUtil.delimiterConverter(delimiter);
+  public static boolean isHeaderValid(String tableName, String[] csvHeader,
+      CarbonDataLoadSchema schema) throws DataLoadingException {


I think DataLoadingException can be removed, it is not thrown by the body

In this function, basically you want to compare two String array to find out weather they are the same, case-insensitively.
take a look at http://stackoverflow.com/questions/2419061/compare-string-array-using-collection
According to this link, using TreeSet is optimal in this case

jackylk · 2017-01-11T03:38:19Z

processing/src/main/java/org/apache/carbondata/processing/util/CarbonDataProcessorUtil.java

@@ -462,6 +389,13 @@ public static boolean isHeaderValid(String tableName, String header,
    return count == columnNames.length;
  }

+  public static boolean isHeaderValid(String tableName, String header,
+      CarbonDataLoadSchema schema, String delimiter) throws DataLoadingException {
+    delimiter = CarbonUtil.delimiterConverter(delimiter);


declare a local variable

CarbonDataQA · 2017-01-11T06:32:20Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/547/

CarbonDataQA · 2017-01-11T07:00:22Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/549/

jackylk · 2017-01-11T07:05:12Z

processing/src/main/java/org/apache/carbondata/processing/util/CarbonDataProcessorUtil.java

+      CarbonDataLoadSchema schema) {
+    Iterator<String> columnIterator =
+        CarbonDataProcessorUtil.getSchemaColumnNames(schema, tableName).iterator();
+    Set<String> csvColumns = new HashSet<String>(Arrays.asList(csvHeader));


You can use Collections.addAll instead of converting to list and add

CarbonDataQA · 2017-01-11T07:08:58Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/550/

jackylk · 2017-01-11T07:12:19Z

processing/src/main/java/org/apache/carbondata/processing/util/CarbonDataProcessorUtil.java

-      throw new DataLoadingException("Not able to read CSV input File ", e);
-    } finally {
-      CarbonUtil.closeStreams(fileReader, bufferedReader);
+    while (columnIterator.hasNext()) {


please add comment to describe this logic, column definition in schema should be subset of input CSV header

CarbonDataQA · 2017-01-11T07:27:10Z

Build Success with Spark 1.5.2, Please check CI http://136.243.101.176:8080/job/ApacheCarbonPRBuilder/552/

jackylk · 2017-01-11T09:47:52Z

LGTM

[Launcher]: Refine miscellaneous

readfileheader

05e6691

QiangCai changed the title ~~[WIP]unify file header reader~~ [CARBONDATA-622]unify file header reader Jan 11, 2017

jackylk reviewed Jan 11, 2017

View reviewed changes

fix comments

a3400f4

asfgit closed this in 3003360 Jan 11, 2017

QiangCai deleted the fileheader branch May 12, 2017 01:54

Beyyes pushed a commit to Beyyes/carbondata that referenced this pull request Jul 12, 2018

Merge pull request apache#518 from Microsoft/yqwang/launcher-dev

9c7ca63

[Launcher]: Refine miscellaneous

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[CARBONDATA-622]unify file header reader #518

[CARBONDATA-622]unify file header reader #518

QiangCai commented Jan 10, 2017 •

edited

Loading

CarbonDataQA commented Jan 10, 2017

CarbonDataQA commented Jan 10, 2017

CarbonDataQA commented Jan 10, 2017

jackylk Jan 11, 2017

QiangCai Jan 11, 2017 •

edited

Loading

jackylk Jan 11, 2017

QiangCai Jan 11, 2017

jackylk Jan 11, 2017

jackylk Jan 11, 2017

QiangCai Jan 11, 2017

jackylk Jan 11, 2017

QiangCai Jan 11, 2017

CarbonDataQA commented Jan 11, 2017

CarbonDataQA commented Jan 11, 2017

jackylk Jan 11, 2017 •

edited

Loading

CarbonDataQA commented Jan 11, 2017

jackylk Jan 11, 2017

CarbonDataQA commented Jan 11, 2017

jackylk commented Jan 11, 2017

[CARBONDATA-622]unify file header reader #518

[CARBONDATA-622]unify file header reader #518

Conversation

QiangCai commented Jan 10, 2017 • edited Loading

CarbonDataQA commented Jan 10, 2017

CarbonDataQA commented Jan 10, 2017

CarbonDataQA commented Jan 10, 2017

Choose a reason for hiding this comment

QiangCai Jan 11, 2017 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

CarbonDataQA commented Jan 11, 2017

CarbonDataQA commented Jan 11, 2017

jackylk Jan 11, 2017 • edited Loading

Choose a reason for hiding this comment

CarbonDataQA commented Jan 11, 2017

Choose a reason for hiding this comment

CarbonDataQA commented Jan 11, 2017

jackylk commented Jan 11, 2017

QiangCai commented Jan 10, 2017 •

edited

Loading

QiangCai Jan 11, 2017 •

edited

Loading

jackylk Jan 11, 2017 •

edited

Loading