Add SPARK_HOME and remove start-master process by default

sindbach · sindbach · commit a646a8432264 · 2016-07-15T11:56:04.000+10:00
diff --git a/README.md b/README.md
@@ -19,7 +19,7 @@ From the spark instance, you could reach the MongoDB instance using `mongodb` ho
 You can find a small dataset example in `/home/ubuntu/times.json` which you can load using [initDocuments.scala](spark/files/initDocuments.scala) :
 
 ```
-${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0 -i ./initDocuments.scala
+${SPARK_HOME}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_${SCALA_VERSION}:${MONGO_SPARK_VERSION} -i ./initDocuments.scala
 ```
 
 
@@ -28,7 +28,7 @@ For examples, please see [reduceByKey.scala](spark/files/reduceByKey.scala) to q
 Run the `spark shell` by executing: 
 
 ```sh
-${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0
+${SPARK_HOME}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_${SCALA_VERSION}:${MONGO_SPARK_VERSION}
 ```
 
 You can also append `-i <file.scala>` to execute a scala file via the spark shell. 
diff --git a/spark/Dockerfile b/spark/Dockerfile
@@ -13,10 +13,12 @@ ENV HOME /home/ubuntu
 ENV SPARK_VERSION 1.6.2
 ENV HADOOP_VERSION 2.6
 ENV MONGO_SPARK_VERSION 1.0.0
-ENV SCALA_VERSION 2.11
+ENV SCALA_VERSION 2.10
 
 WORKDIR ${HOME}
 
+ENV ${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}
+
 COPY files/times.json /home/ubuntu/times.json
 COPY files/readme.txt /home/ubuntu/readme.txt
 COPY files/reduceByKey.scala /home/ubuntu/reduceByKey.scala
@@ -31,5 +33,3 @@ tar xvf spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz
 
 RUN rm -fv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz
 
-# Run single node of spark
-RUN ${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}/sbin/start-master.sh
diff --git a/spark/files/readme.txt b/spark/files/readme.txt
@@ -4,9 +4,13 @@
 mongoimport -h <mongodb ip> -d spark -c times ./times.json
 
 # Or  you can just use initDocuments.scala to import using Spark itself
-${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0 -i ./initDocuments.scala
+${SPARK_HOME}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb/spark.output" --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0 -i ./initDocuments.scala
 
 # Run spark-shell 
-${HOME}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb:27107/spark.output" --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0
+${SPARK_HOME}/bin/spark-shell --conf "spark.mongodb.input.uri=mongodb://mongodb:27017/spark.times" --conf "spark.mongodb.output.uri=mongodb://mongodb:27107/spark.output" --packages org.mongodb.spark:mongo-spark-connector_${SCALA_VERSION}:${MONGO_SPARK_VERSION}
 
 # Or you can run scala file through the shell by specifying `-i <file.scala>`
+
+# start 1 master/worker
+${SPARK_HOME}/sbin/start-master.sh
+${SPARK_HOME}/sbin/start-slave.sh spark://spark:7077