JobReadyProgrammer
diff --git a/‎project9/pom.xml
Lines changed: 103 additions & 0 deletions b/‎project9/pom.xml
Lines changed: 103 additions & 0 deletions
diff --git a/‎project9/src/main/java/com/jobreadyprogrammer/spark/KmeansClustering.java
Lines changed: 48 additions & 0 deletions b/‎project9/src/main/java/com/jobreadyprogrammer/spark/KmeansClustering.java
Lines changed: 48 additions & 0 deletions
diff --git a/‎project9/src/main/java/com/jobreadyprogrammer/spark/LinearMarketingVsSales.java
Lines changed: 54 additions & 0 deletions b/‎project9/src/main/java/com/jobreadyprogrammer/spark/LinearMarketingVsSales.java
Lines changed: 54 additions & 0 deletions
diff --git a/‎project9/src/main/java/com/jobreadyprogrammer/spark/LinearMpgRegression.java
Lines changed: 72 additions & 0 deletions b/‎project9/src/main/java/com/jobreadyprogrammer/spark/LinearMpgRegression.java
Lines changed: 72 additions & 0 deletions
diff --git a/‎project9/src/main/java/com/jobreadyprogrammer/spark/LogisticRegressionExample.java
Lines changed: 62 additions & 0 deletions b/‎project9/src/main/java/com/jobreadyprogrammer/spark/LogisticRegressionExample.java
Lines changed: 62 additions & 0 deletions
diff --git a/‎project9/target/classes/com/jobreadyprogrammer/spark/KmeansClustering.class
3.45 KB b/‎project9/target/classes/com/jobreadyprogrammer/spark/KmeansClustering.class
3.45 KB
diff --git a/‎project9/target/classes/com/jobreadyprogrammer/spark/LinearMarketingVsSales.class
3.81 KB b/‎project9/target/classes/com/jobreadyprogrammer/spark/LinearMarketingVsSales.class
3.81 KB
diff --git a/‎project9/target/classes/com/jobreadyprogrammer/spark/LinearMpgRegression.class
4.03 KB b/‎project9/target/classes/com/jobreadyprogrammer/spark/LinearMpgRegression.class
4.03 KB
diff --git a/‎project9/target/classes/com/jobreadyprogrammer/spark/LogisticRegressionExample.class
4.06 KB b/‎project9/target/classes/com/jobreadyprogrammer/spark/LogisticRegressionExample.class
4.06 KB
@@ -0,0 +1,103 @@
+<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+  <modelVersion>4.0.0</modelVersion>
+  <groupId>com.jobreadyprogrammer</groupId>
+  <artifactId>project9</artifactId>
+  <version>0.0.1-SNAPSHOT</version>
+  <packaging>jar</packaging>
+  
+  
+   <properties>
+		<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
+		<project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
+		<java.version>1.8</java.version>
+		<scala.version>2.11</scala.version>
+   		<spark.version>2.3.0</spark.version>
+    	<postgresql.version>42.1.4</postgresql.version>
+	</properties>
+	
+
+	<dependencies>
+	
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-core_${scala.version}</artifactId>
+			<version>${spark.version}</version>
+		</dependency>
+		
+		
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-sql_${scala.version}</artifactId>
+			<version>${spark.version}</version>
+		</dependency>
+		
+		<dependency>
+			<groupId>org.apache.hadoop</groupId>
+			<artifactId>hadoop-hdfs</artifactId>
+			<version>2.2.0</version>
+		</dependency>
+
+		<dependency>
+	      	<groupId>org.apache.spark</groupId>
+	      	<artifactId>spark-mllib_${scala.version}</artifactId>
+	      	<version>${spark.version}</version>
+	    </dependency>
+
+		<dependency>
+	    	<groupId>org.apache.spark</groupId>
+	      	<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
+	      	<version>2.3.0</version>
+	    </dependency>
+
+
+
+	</dependencies>
+
+  <build>
+
+      <plugins>
+		<plugin>
+		    <groupId>org.apache.maven.plugins</groupId>
+		    <artifactId>maven-dependency-plugin</artifactId>
+		    <executions>
+		        <execution>
+		            <id>copy-dependencies</id>
+		            <phase>prepare-package</phase>
+		            <goals>
+		                <goal>copy-dependencies</goal>
+		            </goals>
+		            <configuration>
+		                <outputDirectory>
+		                    ${project.build.directory}/libs
+		                </outputDirectory>
+		            </configuration>
+		        </execution>
+		    </executions>
+		</plugin>
+	
+
+		<plugin>
+		    <groupId>org.springframework.boot</groupId>
+		    <artifactId>spring-boot-maven-plugin</artifactId>
+		    <executions>
+		        <execution>
+		            <goals>
+		                <goal>repackage</goal>
+		            </goals>
+		            <configuration>
+
+		                <mainClass>com.jobreadyprogrammer.spark.Application</mainClass>
+
+		            </configuration>
+		        </execution>
+		    </executions>
+		</plugin>
+
+
+	    </plugins>
+	    
+	    
+</build>
+
+  
+</project>
@@ -0,0 +1,48 @@
+package com.jobreadyprogrammer.spark;
+
+import org.apache.log4j.Level;
+import org.apache.log4j.Logger;
+import org.apache.spark.ml.clustering.KMeans;
+import org.apache.spark.ml.clustering.KMeansModel;
+import org.apache.spark.ml.feature.VectorAssembler;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+public class KmeansClustering {
+
+	public static void main(String[] args) {
+		
+		Logger.getLogger("org").setLevel(Level.ERROR);
+		Logger.getLogger("akka").setLevel(Level.ERROR);
+		
+		SparkSession spark = new SparkSession.Builder()
+				.appName("kmeans Clustering")
+				.master("local")
+				.getOrCreate();
+		
+		Dataset<Row> wholeSaleDf = spark.read()
+				.option("header", "true")
+				.option("inferSchema", "true")
+				.format("csv")
+				.load("/Users/imtiazahmad/Desktop/SparkCourse/data/Wholesale customers data.csv");
+		wholeSaleDf.show();
+		Dataset<Row> featuresDf = wholeSaleDf.select("channel", "fresh", "milk", "grocery", "frozen", "detergents_paper", "delicassen");
+		
+		VectorAssembler assembler = new VectorAssembler();
+		assembler = assembler.setInputCols(new String[] {"channel", "fresh", "milk", "grocery", "frozen", "detergents_paper", "delicassen"})
+				.setOutputCol("features");
+		
+		Dataset<Row> trainingData = assembler.transform(featuresDf).select("features");
+		
+		KMeans kmeans = new KMeans().setK(10);
+		
+		KMeansModel model = kmeans.fit(trainingData);
+		
+		System.out.println(model.computeCost(trainingData));
+		model.summary().predictions().show();
+		
+		
+	}
+
+}
@@ -0,0 +1,54 @@
+package com.jobreadyprogrammer.spark;
+
+import org.apache.log4j.Level;
+import org.apache.log4j.Logger;
+import org.apache.spark.ml.feature.VectorAssembler;
+import org.apache.spark.ml.regression.LinearRegression;
+import org.apache.spark.ml.regression.LinearRegressionModel;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+public class LinearMarketingVsSales {
+
+	public static void main(String[] args) {
+		
+		Logger.getLogger("org").setLevel(Level.ERROR);
+		Logger.getLogger("akka").setLevel(Level.ERROR);
+		
+		SparkSession spark = new SparkSession.Builder()
+				.appName("LinearRegressionExample")
+				.master("local")
+				.getOrCreate();
+		
+		Dataset<Row> markVsSalesDf = spark.read()
+			.option("header", "true")
+			.option("inferSchema", "true")
+			.format("csv")
+			.load("/Users/imtiazahmad/Desktop/SparkCourse/data/marketing_vs_sales.csv");
+
+		Dataset<Row> mldf = markVsSalesDf.withColumnRenamed("sales", "label")
+		.select("label", "marketing_spend","bad_day");
+		
+		String[] featureColumns = {"marketing_spend", "bad_day"};
+		
+		VectorAssembler assember = new VectorAssembler()
+						.setInputCols(featureColumns)
+						.setOutputCol("features");
+		
+		Dataset<Row> lblFeaturesDf = assember.transform(mldf).select("label", "features");
+		lblFeaturesDf = lblFeaturesDf.na().drop();
+		lblFeaturesDf.show();
+		
+		// next we need to create a linear regression model object
+		LinearRegression lr = new LinearRegression();
+		LinearRegressionModel learningModel = lr.fit(lblFeaturesDf);
+		
+		learningModel.summary().predictions().show();
+		
+		System.out.println("R Squared: "+ learningModel.summary().r2());
+		
+		
+		
+	}
+}
@@ -0,0 +1,72 @@
+package com.jobreadyprogrammer.spark;
+
+import org.apache.log4j.Level;
+import org.apache.log4j.Logger;
+import org.apache.spark.ml.Pipeline;
+import org.apache.spark.ml.PipelineModel;
+import org.apache.spark.ml.PipelineStage;
+import org.apache.spark.ml.feature.VectorAssembler;
+import org.apache.spark.ml.regression.LinearRegression;
+import org.apache.spark.ml.regression.LinearRegressionModel;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+public class LinearMpgRegression {
+
+	public static void main(String[] args) {
+		
+		Logger.getLogger("org").setLevel(Level.ERROR);
+		Logger.getLogger("akka").setLevel(Level.ERROR);
+		
+		SparkSession spark = new SparkSession.Builder()
+				.appName("LinearRegressionMpgExample")
+				.master("local")
+				.getOrCreate();
+		
+		Dataset<Row> autoMpgDf = spark.read()
+				.option("header", "true")
+				.option("inferSchema", "true")
+				.format("csv")
+				.load("/Users/imtiazahmad/Desktop/SparkCourse/data/auto_mpg.csv");
+
+		autoMpgDf = autoMpgDf.withColumnRenamed("mpg", "label")
+			.drop("acceleration")
+			.drop("modelYear")
+			.drop("origin")
+			.drop("carName")
+			.drop("displacement");
+		
+		autoMpgDf = autoMpgDf.na().drop();
+		
+		String[] featureColumns = {"cylinders", "horsePower", "weight"};
+		
+		VectorAssembler assembler = new VectorAssembler()
+				.setInputCols(featureColumns)
+				.setOutputCol("features");
+		
+		autoMpgDf = assembler.transform(autoMpgDf).select("label", "features");
+		
+		LinearRegression lr = new LinearRegression();
+		LinearRegressionModel lrm = lr.fit(autoMpgDf);
+		
+		Pipeline pl = new Pipeline()
+				.setStages(new PipelineStage[] {lrm});
+		
+		Dataset<Row> [] splitData = autoMpgDf.randomSplit(new double[] {0.7, 0.3});
+		
+		Dataset<Row> trainingData = splitData[0];
+		Dataset<Row> testData = splitData[1];
+		
+		PipelineModel model = pl.fit(trainingData);
+		
+		Dataset<Row> result = model.transform(testData);
+		result.show();
+		
+		}
+		
+		
+
+}
+
+
@@ -0,0 +1,62 @@
+package com.jobreadyprogrammer.spark;
+
+import org.apache.log4j.Level;
+import org.apache.log4j.Logger;
+import org.apache.spark.ml.Pipeline;
+import org.apache.spark.ml.PipelineModel;
+import org.apache.spark.ml.PipelineStage;
+import org.apache.spark.ml.classification.LogisticRegression;
+import org.apache.spark.ml.feature.StringIndexer;
+import org.apache.spark.ml.feature.VectorAssembler;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+public class LogisticRegressionExample {
+
+	public static void main(String[] args) {
+
+		Logger.getLogger("org").setLevel(Level.ERROR);
+		Logger.getLogger("akka").setLevel(Level.ERROR);
+		
+		SparkSession spark = new SparkSession.Builder()
+				.appName("LogisticRegressionExample")
+				.master("local")
+				.getOrCreate();
+		
+		Dataset<Row> treatmentDf = spark.read()
+				.option("header", "true")
+				.option("inferSchema", "true")
+				.format("csv")
+				.load("/Users/imtiazahmad/Desktop/SparkCourse/data/cryotherapy.csv");
+		
+		Dataset<Row> lblFeatureDf = treatmentDf.withColumnRenamed("Result_of_Treatment", "label")
+			.select("label", "sex","age","time","number_of_warts","type","area");
+		
+		lblFeatureDf = lblFeatureDf.na().drop();
+		
+		StringIndexer genderIndexer = new StringIndexer()
+				.setInputCol("sex").setOutputCol("sexIndex");
+	
+		VectorAssembler assembler = new VectorAssembler()
+				.setInputCols(new String [] {"sexIndex", "age", "time", "number_of_warts", "type", "area"})
+				.setOutputCol("features");
+		
+		
+		Dataset<Row> [] splitData = lblFeatureDf.randomSplit(new double[] {.7, .3});
+		Dataset<Row> trainingDf = splitData[0];
+		Dataset<Row> testingDf = splitData[1];
+		
+		LogisticRegression logReg = new LogisticRegression();
+		
+		Pipeline pl = new Pipeline();
+		pl.setStages(new PipelineStage [] {genderIndexer, assembler, logReg});
+		
+		PipelineModel model = pl.fit(trainingDf);
+		Dataset<Row> results = model.transform(testingDf);
+		
+		results.show();
+		
+	}
+
+}