spark-examples
diff --git a/‎convert-column-python-list.py
+48 b/‎convert-column-python-list.py
+48
diff --git a/‎pyspark-add-new-column.py
+69 b/‎pyspark-add-new-column.py
+69
diff --git a/‎pyspark-arraytype.py
+44 b/‎pyspark-arraytype.py
+44
diff --git a/‎pyspark-change-string-double.py
+35 b/‎pyspark-change-string-double.py
+35
diff --git a/‎pyspark-convert-map-to-columns.py
+42 b/‎pyspark-convert-map-to-columns.py
+42
diff --git a/‎pyspark-create-dataframe-dictionary.py
+52 b/‎pyspark-create-dataframe-dictionary.py
+52
diff --git a/‎pyspark-explode-array-map.py
+2-2 b/‎pyspark-explode-array-map.py
+2-2
diff --git a/‎pyspark-filter.py
+20 b/‎pyspark-filter.py
+20
diff --git a/‎pyspark-filter2.py
+17 b/‎pyspark-filter2.py
+17
@@ -0,0 +1,48 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+spark = SparkSession.builder.master("local[1]") \
+                    .appName('SparkByExamples.com') \
+                    .getOrCreate()
+
+data = [("James","Smith","USA","CA"),("Michael","Rose","USA","NY"), \
+    ("Robert","Williams","USA","CA"),("Maria","Jones","USA","FL") \
+  ]
+columns=["firstname","lastname","country","state"]
+df=spark.createDataFrame(data=data,schema=columns)
+df.show()
+print(df.collect())
+
+states1=df.rdd.map(lambda x: x[3]).collect()
+print(states1)
+#['CA', 'NY', 'CA', 'FL']
+from collections import OrderedDict 
+res = list(OrderedDict.fromkeys(states1)) 
+print(res)
+#['CA', 'NY', 'FL']
+
+
+#Example 2
+states2=df.rdd.map(lambda x: x.state).collect()
+print(states2)
+#['CA', 'NY', 'CA', 'FL']
+
+states3=df.select(df.state).collect()
+print(states3)
+#[Row(state='CA'), Row(state='NY'), Row(state='CA'), Row(state='FL')]
+
+states4=df.select(df.state).rdd.flatMap(lambda x: x).collect()
+print(states4)
+#['CA', 'NY', 'CA', 'FL']
+
+states5=df.select(df.state).toPandas()['state']
+states6=list(states5)
+print(states6)
+#['CA', 'NY', 'CA', 'FL']
+
+pandDF=df.select(df.state,df.firstname).toPandas()
+print(list(pandDF['state']))
+print(list(pandDF['firstname']))
@@ -0,0 +1,69 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+
+spark = SparkSession.builder \
+                    .appName('SparkByExamples.com') \
+                    .getOrCreate()
+
+data = [('James','Smith','M',3000),
+  ('Anna','Rose','F',4100),
+  ('Robert','Williams','M',6200), 
+]
+
+columns = ["firstname","lastname","gender","salary"]
+df = spark.createDataFrame(data=data, schema = columns)
+df.show()
+
+
+if 'salary1' not in df.columns:
+    print("aa")
+    
+# Add new constanct column
+from pyspark.sql.functions import lit
+df.withColumn("bonus_percent", lit(0.3)) \
+  .show()
+  
+#Add column from existing column
+df.withColumn("bonus_amount", df.salary*0.3) \
+  .show()
+
+#Add column by concatinating existing columns
+from pyspark.sql.functions import concat_ws
+df.withColumn("name", concat_ws(",","firstname",'lastname')) \
+  .show()
+
+#Add current date
+from pyspark.sql.functions import current_date
+df.withColumn("current_date", current_date()) \
+  .show()
+
+
+from pyspark.sql.functions import when
+df.withColumn("grade", \
+   when((df.salary < 4000), lit("A")) \
+     .when((df.salary >= 4000) & (df.salary <= 5000), lit("B")) \
+     .otherwise(lit("C")) \
+  ).show()
+    
+# Add column using select
+df.select("firstname","salary", lit(0.3).alias("bonus")).show()
+df.select("firstname","salary", lit(df.salary * 0.3).alias("bonus_amount")).show()
+df.select("firstname","salary", current_date().alias("today_date")).show()
+
+#Add columns using SQL
+df.createOrReplaceTempView("PER")
+spark.sql("select firstname,salary, '0.3' as bonus from PER").show()
+spark.sql("select firstname,salary, salary * 0.3 as bonus_amount from PER").show()
+spark.sql("select firstname,salary, current_date() as today_date from PER").show()
+spark.sql("select firstname,salary, " +
+          "case salary when salary < 4000 then 'A' "+
+          "else 'B' END as grade from PER").show()
+
+
+
+
+
@@ -0,0 +1,44 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+from pyspark.sql.types import StringType, ArrayType,StructType,StructField
+spark = SparkSession.builder \
+                    .appName('SparkByExamples.com') \
+                    .getOrCreate()
+
+
+arrayCol = ArrayType(StringType(),False)
+
+data = [
+ ("James,,Smith",["Java","Scala","C++"],["Spark","Java"],"OH","CA"),
+ ("Michael,Rose,",["Spark","Java","C++"],["Spark","Java"],"NY","NJ"),
+ ("Robert,,Williams",["CSharp","VB"],["Spark","Python"],"UT","NV")
+]
+
+schema = StructType([ 
+    StructField("name",StringType(),True), 
+    StructField("languagesAtSchool",ArrayType(StringType()),True), 
+    StructField("languagesAtWork",ArrayType(StringType()),True), 
+    StructField("currentState", StringType(), True), 
+    StructField("previousState", StringType(), True) 
+  ])
+
+df = spark.createDataFrame(data=data,schema=schema)
+df.printSchema()
+df.show()
+
+from pyspark.sql.functions import explode
+df.select(df.name,explode(df.languagesAtSchool)).show()
+
+from pyspark.sql.functions import split
+df.select(split(df.name,",").alias("nameAsArray")).show()
+
+from pyspark.sql.functions import array
+df.select(df.name,array(df.currentState,df.previousState).alias("States")).show()
+
+from pyspark.sql.functions import array_contains
+df.select(df.name,array_contains(df.languagesAtSchool,"Java")
+    .alias("array_contains")).show()
@@ -0,0 +1,35 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+from pyspark.sql.types import DoubleType, IntegerType
+# Create SparkSession
+spark = SparkSession.builder \
+          .appName('SparkByExamples.com') \
+          .getOrCreate()
+
+simpleData = [("James","34","true","M","3000.6089"),
+    ("Michael","33","true","F","3300.8067"),
+    ("Robert","37","false","M","5000.5034")
+  ]
+
+columns = ["firstname","age","isGraduated","gender","salary"]
+df = spark.createDataFrame(data = simpleData, schema = columns)
+df.printSchema()
+df.show(truncate=False)
+
+from pyspark.sql.functions import col,round,expr
+df.withColumn("salary",df.salary.cast('double')).printSchema()    
+df.withColumn("salary",df.salary.cast(DoublerType())).printSchema()    
+df.withColumn("salary",col("salary").cast('double')).printSchema()    
+
+#df.withColumn("salary",round(df.salary.cast(DoubleType()),2)).show(truncate=False).printSchema()    
+df.selectExpr("firstname","isGraduated","cast(salary as double) salary").printSchema()    
+
+df.createOrReplaceTempView("CastExample")
+spark.sql("SELECT firstname,isGraduated,DOUBLE(salary) as salary from CastExample").printSchema()
+
+
+#df.select("firstname",expr(df.age),"isGraduated",col("salary").cast('float').alias("salary")).show()
@@ -0,0 +1,42 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
+
+dataDictionary = [
+        ('James',{'hair':'black','eye':'brown'}),
+        ('Michael',{'hair':'brown','eye':None}),
+        ('Robert',{'hair':'red','eye':'black'}),
+        ('Washington',{'hair':'grey','eye':'grey'}),
+        ('Jefferson',{'hair':'brown','eye':''})
+        ]
+
+df = spark.createDataFrame(data=dataDictionary, schema = ['name','properties'])
+df.printSchema()
+df.show(truncate=False)
+
+df3=df.rdd.map(lambda x: \
+    (x.name,x.properties["hair"],x.properties["eye"])) \
+    .toDF(["name","hair","eye"])
+df3.printSchema()
+df3.show()
+
+df.withColumn("hair",df.properties.getItem("hair")) \
+  .withColumn("eye",df.properties.getItem("eye")) \
+  .drop("properties") \
+  .show()
+
+df.withColumn("hair",df.properties["hair"]) \
+  .withColumn("eye",df.properties["eye"]) \
+  .drop("properties") \
+  .show()
+
+# Functions
+from pyspark.sql.functions import explode,map_keys,col
+keysDF = df.select(explode(map_keys(df.properties))).distinct()
+keysList = keysDF.rdd.map(lambda x:x[0]).collect()
+keyCols = list(map(lambda x: col("properties").getItem(x).alias(str(x)), keysList))
+df.select(df.name, *keyCols).show()
@@ -0,0 +1,52 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+from pyspark.sql import SparkSession
+spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
+
+dataDictionary = [
+        ('James',{'hair':'black','eye':'brown'}),
+        ('Michael',{'hair':'brown','eye':None}),
+        ('Robert',{'hair':'red','eye':'black'}),
+        ('Washington',{'hair':'grey','eye':'grey'}),
+        ('Jefferson',{'hair':'brown','eye':''})
+        ]
+
+df = spark.createDataFrame(data=dataDictionary, schema = ['name','properties'])
+df.printSchema()
+df.show(truncate=False)
+
+# Using StructType schema
+from pyspark.sql.types import StructField, StructType, StringType, MapType,IntegerType
+schema = StructType([
+    StructField('Name', StringType(), True),
+    StructField('properties', MapType(StringType(),StringType()),True)
+])
+df2 = spark.createDataFrame(data=dataDictionary, schema = schema)
+df2.printSchema()
+df2.show(truncate=False)
+
+df3=df.rdd.map(lambda x: \
+    (x.name,x.properties["hair"],x.properties["eye"])) \
+    .toDF(["name","hair","eye"])
+df3.printSchema()
+df3.show()
+
+df.withColumn("hair",df.properties.getItem("hair")) \
+  .withColumn("eye",df.properties.getItem("eye")) \
+  .drop("properties") \
+  .show()
+
+df.withColumn("hair",df.properties["hair"]) \
+  .withColumn("eye",df.properties["eye"]) \
+  .drop("properties") \
+  .show()
+
+# Functions
+from pyspark.sql.functions import explode,map_keys,col
+keysDF = df.select(explode(map_keys(df.properties))).distinct()
+keysList = keysDF.rdd.map(lambda x:x[0]).collect()
+keyCols = list(map(lambda x: col("properties").getItem(x).alias(str(x)), keysList))
+df.select(df.name, *keyCols).show()
@@ -15,7 +15,7 @@
         ('Robert',['CSharp',''],{'hair':'red','eye':''}),
         ('Washington',None,None),
         ('Jefferson',['1','2'],{})
-
+        ]
 df = spark.createDataFrame(data=arrayData, schema = ['name','knownLanguages','properties'])
 df.printSchema()
 df.show()
@@ -45,7 +45,7 @@
 
 from pyspark.sql.functions import posexplode_outer
 """ with array """
-df.select($"name",posexplode_outer($"knownLanguages")).show()
+df.select(df.name,posexplode_outer(df.knownLanguages)).show()
 
 """ with map """
 df.select(df.name,posexplode_outer(df.properties)).show()
 
@@ -37,15 +37,31 @@
 df.printSchema()
 df.show(truncate=False)
 
+#Equals
 df.filter(df.state == "OH") \
     .show(truncate=False)
 
+#Not equals
+df.filter(~(df.state == "OH")) \
+    .show(truncate=False)
+df.filter(df.state != "OH") \
+    .show(truncate=False)    
+    
 df.filter(col("state") == "OH") \
     .show(truncate=False)    
 
 df.filter("gender  == 'M'") \
     .show(truncate=False)    
 
+df.filter("gender  <> 'M'") \
+    .show(truncate=False)    
+
+#IS IN
+li=["OH","CA","DE"]
+df.filter(df.state.isin(li)).show()
+#IS NOT IN
+df.filter(~df.state.isin(li)).show()
+
 df.filter( (df.state  == "OH") & (df.gender  == "M") ) \
     .show(truncate=False)        
 
@@ -54,4 +70,8 @@
 
 df.filter(df.name.lastname == "Williams") \
     .show(truncate=False) 
+
+df.filter(df.state.startswith("N")).show()
+df.filter(df.state.endswith("H")).show()
+df.filter(df.state.like("N%")).show()
 
@@ -0,0 +1,17 @@
+# -*- coding: utf-8 -*-
+"""
+author SparkByExamples.com
+"""
+
+import pyspark
+from pyspark.sql import SparkSession
+
+spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
+
+data2 = [(1,"James Smith"), (2,"Michael Rose"),
+    (3,"Robert Williams"), (4,"Rames Rose"),(5,"Rames rose")
+  ]
+df2 = spark.createDataFrame(data = data2, schema = ["id","name"])
+
+df2.filter(df2.name.like("%rose%")).show()
+df2.filter(df2.name.rlike("(?i)^*rose$")).show()