[SPARK-5803][MLLIB] use ArrayBuilder to build primitive arrays

mengxr · mengxr · commit d50a91d529b0 · 2015-02-13T16:43:49.000-08:00
because ArrayBuffer is not specialized. Author: Xiangrui Meng <meng@databricks.com> Closes #4594 from mengxr/SPARK-5803 and squashes the following commits: 1261bd5 [Xiangrui Meng] merge master a4ea872 [Xiangrui Meng] use ArrayBuilder to build primitive arrays
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/feature/Word2Vec.scala b/mllib/src/main/scala/org/apache/spark/mllib/feature/Word2Vec.scala
@@ -21,7 +21,7 @@ import java.lang.{Iterable => JavaIterable}
 
 import scala.collection.JavaConverters._
 import scala.collection.mutable
-import scala.collection.mutable.ArrayBuffer
+import scala.collection.mutable.ArrayBuilder
 
 import com.github.fommil.netlib.BLAS.{getInstance => blas}
 
@@ -272,7 +272,7 @@ class Word2Vec extends Serializable with Logging {
         def hasNext: Boolean = iter.hasNext
 
         def next(): Array[Int] = {
-          var sentence = new ArrayBuffer[Int]
+          val sentence = ArrayBuilder.make[Int]
           var sentenceLength = 0
           while (iter.hasNext && sentenceLength < MAX_SENTENCE_LENGTH) {
             val word = bcVocabHash.value.get(iter.next())
@@ -283,7 +283,7 @@ class Word2Vec extends Serializable with Logging {
               case None =>
             }
           }
-          sentence.toArray
+          sentence.result()
         }
       }
     }
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/tree/DecisionTree.scala b/mllib/src/main/scala/org/apache/spark/mllib/tree/DecisionTree.scala
@@ -17,9 +17,9 @@
 
 package org.apache.spark.mllib.tree
 
-import scala.collection.mutable
 import scala.collection.JavaConverters._
-import scala.collection.mutable.ArrayBuffer
+import scala.collection.mutable
+import scala.collection.mutable.ArrayBuilder
 
 import org.apache.spark.Logging
 import org.apache.spark.annotation.Experimental
@@ -1136,7 +1136,7 @@ object DecisionTree extends Serializable with Logging {
         logDebug("stride = " + stride)
 
         // iterate `valueCount` to find splits
-        val splits = new ArrayBuffer[Double]
+        val splitsBuilder = ArrayBuilder.make[Double]
         var index = 1
         // currentCount: sum of counts of values that have been visited
         var currentCount = valueCounts(0)._2
@@ -1154,13 +1154,13 @@ object DecisionTree extends Serializable with Logging {
           // makes the gap between currentCount and targetCount smaller,
           // previous value is a split threshold.
           if (previousGap < currentGap) {
-            splits.append(valueCounts(index - 1)._1)
+            splitsBuilder += valueCounts(index - 1)._1
             targetCount += stride
           }
           index += 1
         }
 
-        splits.toArray
+        splitsBuilder.result()
       }
     }
 
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/util/NumericParser.scala b/mllib/src/main/scala/org/apache/spark/mllib/util/NumericParser.scala
@@ -19,7 +19,7 @@ package org.apache.spark.mllib.util
 
 import java.util.StringTokenizer
 
-import scala.collection.mutable.{ArrayBuffer, ListBuffer}
+import scala.collection.mutable.{ArrayBuilder, ListBuffer}
 
 import org.apache.spark.SparkException
 
@@ -51,7 +51,7 @@ private[mllib] object NumericParser {
   }
 
   private def parseArray(tokenizer: StringTokenizer): Array[Double] = {
-    val values = ArrayBuffer.empty[Double]
+    val values = ArrayBuilder.make[Double]
     var parsing = true
     var allowComma = false
     var token: String = null
@@ -67,14 +67,14 @@ private[mllib] object NumericParser {
         }
       } else {
         // expecting a number
-        values.append(parseDouble(token))
+        values += parseDouble(token)
         allowComma = true
       }
     }
     if (parsing) {
       throw new SparkException(s"An array must end with ']'.")
     }
-    values.toArray
+    values.result()
   }
 
   private def parseTuple(tokenizer: StringTokenizer): Seq[_] = {
@@ -114,7 +114,7 @@ private[mllib] object NumericParser {
     try {
       java.lang.Double.parseDouble(s)
     } catch {
-      case e: Throwable =>
+      case e: NumberFormatException =>
         throw new SparkException(s"Cannot parse a double from: $s", e)
     }
   }

Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ import java.lang.{Iterable => JavaIterable}`
`21`	`21`
`22`	`22`	`import scala.collection.JavaConverters._`
`23`	`23`	`import scala.collection.mutable`
`24`		`-import scala.collection.mutable.ArrayBuffer`
	`24`	`+import scala.collection.mutable.ArrayBuilder`
`25`	`25`
`26`	`26`	`import com.github.fommil.netlib.BLAS.{getInstance => blas}`
`27`	`27`
`@@ -272,7 +272,7 @@ class Word2Vec extends Serializable with Logging {`
`272`	`272`	`def hasNext: Boolean = iter.hasNext`
`273`	`273`
`274`	`274`	`def next(): Array[Int] = {`
`275`		`- var sentence = new ArrayBuffer[Int]`
	`275`	`+ val sentence = ArrayBuilder.make[Int]`
`276`	`276`	`var sentenceLength = 0`
`277`	`277`	`while (iter.hasNext && sentenceLength < MAX_SENTENCE_LENGTH) {`
`278`	`278`	`val word = bcVocabHash.value.get(iter.next())`
`@@ -283,7 +283,7 @@ class Word2Vec extends Serializable with Logging {`
`283`	`283`	`case None =>`
`284`	`284`	`}`
`285`	`285`	`}`
`286`		`- sentence.toArray`
	`286`	`+ sentence.result()`
`287`	`287`	`}`
`288`	`288`	`}`
`289`	`289`	`}`
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@ package org.apache.spark.mllib.util`
`19`	`19`
`20`	`20`	`import java.util.StringTokenizer`
`21`	`21`
`22`		`-import scala.collection.mutable.{ArrayBuffer, ListBuffer}`
	`22`	`+import scala.collection.mutable.{ArrayBuilder, ListBuffer}`
`23`	`23`
`24`	`24`	`import org.apache.spark.SparkException`
`25`	`25`
`@@ -51,7 +51,7 @@ private[mllib] object NumericParser {`
`51`	`51`	`}`
`52`	`52`
`53`	`53`	`private def parseArray(tokenizer: StringTokenizer): Array[Double] = {`
`54`		`- val values = ArrayBuffer.empty[Double]`
	`54`	`+ val values = ArrayBuilder.make[Double]`
`55`	`55`	`var parsing = true`
`56`	`56`	`var allowComma = false`
`57`	`57`	`var token: String = null`
`@@ -67,14 +67,14 @@ private[mllib] object NumericParser {`
`67`	`67`	`}`
`68`	`68`	`} else {`
`69`	`69`	`// expecting a number`
`70`		`- values.append(parseDouble(token))`
	`70`	`+ values += parseDouble(token)`
`71`	`71`	`allowComma = true`
`72`	`72`	`}`
`73`	`73`	`}`
`74`	`74`	`if (parsing) {`
`75`	`75`	`throw new SparkException(s"An array must end with ']'.")`
`76`	`76`	`}`
`77`		`- values.toArray`
	`77`	`+ values.result()`
`78`	`78`	`}`
`79`	`79`
`80`	`80`	`private def parseTuple(tokenizer: StringTokenizer): Seq[_] = {`
`@@ -114,7 +114,7 @@ private[mllib] object NumericParser {`
`114`	`114`	`try {`
`115`	`115`	`java.lang.Double.parseDouble(s)`
`116`	`116`	`} catch {`
`117`		`- case e: Throwable =>`
	`117`	`+ case e: NumberFormatException =>`
`118`	`118`	`throw new SparkException(s"Cannot parse a double from: $s", e)`
`119`	`119`	`}`
`120`	`120`	`}`