Saving Kafka offsets to Cassandra (#2)

polomarcus · web-flow · commit 1efbaa496674 · 2017-07-20T13:01:25.000+02:00
* todo: fix stream provider

* fix: StreamSinkProvider must not be abstract

* trying update format for cassandra stream provider

* wip: saving offset to Kafka when checkpointing is not possible

* wip: comments about sync ops

* wip: get offsets from kafka and save in it 2 transactions

* saving offsets to Cassandra finally works

* change saving method to cassandra

* cleaner code

* doc: add blog article about kafka
diff --git a/README.md b/README.md
@@ -12,9 +12,15 @@ Then, Kafka to Cassandra
 ## Output data 
 Stored inside Kafka and Cassandra for example only.
 Cassandra's Sinks uses the [ForeachWriter](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.ForeachWriter) and also the [StreamSinkProvider](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.sources.StreamSinkProvider) to compare both sinks.
-One is using the Datastax's Cassandra saveToCassandra method. The other another method, more messy, that uses CQL on a custom foreach loop.
+
+One is using the Datastax's Cassandra saveToCassandra method. The other another method, messier (untyped), that uses CQL on a custom foreach loop.
+
+From Spark's doc about batch duration:
+> Trigger interval: Optionally, specify the trigger interval. If it is not specified, the system will check for availability of new data as soon as the previous processing has completed. If a trigger time is missed because the previous processing has not completed, then the system will attempt to trigger at the next trigger point, not immediately after the processing has completed.
+
 ### Kafka topic
-topic:test
+One topic "test" with only one partition
+
 ### Cassandra Table
 A table for the ForeachWriter
 ```
@@ -38,7 +44,18 @@ CREATE TABLE test.radioOtherSink (
 );
 ```
 
+A 3rd sink to store **kafka metadata** in case checkpointing is not available (application upgrade for example)
+```
+CREATE TABLE test.kafkaMetadata (
+  partition int,
+  offset bigint,
+  PRIMARY KEY (partition)
+);
+```
+
 
+#### Table Content
+##### Radio
 ```
 cqlsh> SELECT * FROM test.radio;
 
@@ -56,16 +73,36 @@ cqlsh> SELECT * FROM test.radio;
 
 ```
 
+##### Kafka Metadata
+When doing an application upgrade, we cannot use [checkpointing](https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#recovering-from-failures-with-checkpointing), so we need to store our offset into a external datasource, here Cassandra is chosen.
+Then, when starting our kafka source we need to use the option "StartingOffsets" with a json string like 
+```
+""" {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}} """
+```
+Learn more [in the official Spark's doc](https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#creating-a-kafka-source-for-batch-queries).
+
+In the case, there is not Kafka's metadata stored inside Cassandra, **earliest** is used.
+
+```
+cqlsh> SELECT * FROM test.kafkametadata;
+ partition | offset
+-----------+--------
+         0 |    171
+```
+
 ## Useful links
+* [Processing Data in Apache Kafka with Structured Streaming in Apache Spark 2.2](https://databricks.com/blog/2017/04/26/processing-data-in-apache-kafka-with-structured-streaming-in-apache-spark-2-2.html)
 * https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html
 * https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#using-foreach
 * https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-modes
 
 ## Inspired by
 * https://github.com/ansrivas/spark-structured-streaming
-* From Holden Karau's High Performance Spark : https://github.com/holdenk/spark-structured-streaming-ml/blob/master/src/main/scala/com/high-performance-spark-examples/structuredstreaming/CustomSink.scala#L66
+* [Holden Karau's High Performance Spark](https://github.com/holdenk/spark-structured-streaming-ml/blob/master/src/main/scala/com/high-performance-spark-examples/structuredstreaming/CustomSink.scala#L66)
+* [Jay Kreps blog articles](https://medium.com/@jaykreps/exactly-once-support-in-apache-kafka-55e1fdd0a35f)
 
 ## Requirements
+@TODO docker compose
 * Cassandra 3.10
 * Kafka 0.10+ (with Zookeeper)
 
diff --git a/src/main/scala/Main.scala b/src/main/scala/Main.scala
@@ -1,41 +1,38 @@
 package main
 
 import cassandra.CassandraDriver
-import kafka.{KafkaService, KafkaSink, KafkaSource}
+import kafka.{KafkaSink, KafkaSource}
 import parquetHelper.ParquetService
 import spark.SparkHelper
 
 object Main {
 
-
   def main(args: Array[String]) {
     val spark = SparkHelper.getAndConfigureSparkSession()
 
     //Classic Batch
-    ParquetService.batchWay()
+    //ParquetService.batchWay()
 
-    //Stream
+    //Generate a "fake" stream from a parquet file
     val staticInputDF = ParquetService.streamingWay()
 
-    //Stream To Kafka
+    //Send it to Kafka for our example
     val queryToKafka = KafkaSink.writeStream(staticInputDF)
 
-    //Read from Kafka
-    val kafkaInputDF = KafkaSource.read()
+    //Finally read it from kafka, in case checkpointing is not available we read last offsets saved from Cassandra
+    val (startingOption, partitionsAndOffsets) = CassandraDriver.getKafaMetadata()
+    val kafkaInputDF = KafkaSource.read(startingOption, partitionsAndOffsets)
 
-    //Debug Kafka input Stream
+    //Just debugging Kafka source into our console
     KafkaSink.debugStream(kafkaInputDF)
 
-    CassandraDriver.getTestInfo()
-    //Saving using the foreach method
-    CassandraDriver.saveForeach(kafkaInputDF)
-
     //Saving using Datastax connector's saveToCassandra method
     CassandraDriver.saveStreamSinkProvider(kafkaInputDF)
 
-    //@TODO debug
-    CassandraDriver.debug()
+    //Saving using the foreach method
+    //CassandraDriver.saveForeach(kafkaInputDF) //Untype/unsafe method using CQL  --> just here for example
 
+    //Wait for all streams to finish
     spark.streams.awaitAnyTermination()
   }
 }
diff --git a/src/main/scala/cassandra/CassandraDriver.scala b/src/main/scala/cassandra/CassandraDriver.scala
@@ -3,7 +3,8 @@ package cassandra
 import org.apache.spark.sql._
 import org.apache.spark.sql.cassandra._
 import com.datastax.spark.connector._
-import kafka.KafkaService
+import com.datastax.spark.connector.cql.CassandraConnector
+import kafka.{KafkaMetadata, KafkaService}
 import radio.SimpleSongAggregation
 import spark.SparkHelper
 import sink._
@@ -12,23 +13,31 @@ object CassandraDriver {
   private val spark = SparkHelper.getSparkSession()
   import spark.implicits._
 
+  val connector = CassandraConnector(SparkHelper.getSparkSession().sparkContext.getConf)
+
   val namespace = "test"
   val foreachTableSink = "radio"
-  val StreamProviderTableSink = "radioOtherSink"
+  val StreamProviderTableSink = "radioothersink"
+  val kafkaMetadata = "kafkametadata"
 
   def getTestInfo() = {
-    val rdd = spark.sparkContext.cassandraTable("test", "kv")
-    println(rdd.count)
-    println(rdd.first)
-    println(rdd.map(_.getInt("value")).sum)
+    val rdd = spark.sparkContext.cassandraTable(namespace, kafkaMetadata)
+
+    if( !rdd.isEmpty ) {
+      println(rdd.count)
+      println(rdd.first)
+    } else {
+      println(s"$namespace, $kafkaMetadata is empty in cassandra")
+    }
   }
 
 
   /**
     * remove kafka metadata and only focus on business structure
     */
-  private def getDatasetForCassandra(df: DataFrame) = {
-    df.select(KafkaService.radioStructureName + ".*").as[SimpleSongAggregation]
+  def getDatasetForCassandra(df: DataFrame) = {
+    df.select(KafkaService.radioStructureName + ".*")
+      .as[SimpleSongAggregation]
   }
 
   //https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#using-foreach
@@ -39,7 +48,7 @@ object CassandraDriver {
     ds
       .writeStream
       .queryName("KafkaToCassandraForeach")
-      .format("update")
+      //.outputMode("update")
       .foreach(new CassandraSinkForeach())
       .start()
   }
@@ -48,13 +57,51 @@ object CassandraDriver {
     df
       .writeStream
       .format("cassandra.sink.CassandraSinkProvider")
+      .outputMode("update")
       .queryName("KafkaToCassandraStreamSinkProvider")
-      .format("update") //@TODO check how to handle this in a custom StreakSnkProvider
       .start()
   }
 
+  /**
+    * @TODO handle more topic name, for our example we only use the topic "test"
+    *
+    *  we can use collect here as kafkameta data is not big at all
+    *
+    * if no metadata are found, we would use the earliest offsets.
+    *
+    * @see https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#creating-a-kafka-source-batch
+    *  assign	json string {"topicA":[0,1],"topicB":[2,4]}
+    *  Specific TopicPartitions to consume. Only one of "assign", "subscribe" or "subscribePattern" options can be specified for Kafka source.
+    */
+  def getKafaMetadata() = {
+    val kafkaMetadataRDD = spark.sparkContext.cassandraTable(namespace, kafkaMetadata)
+
+    val output = if(kafkaMetadataRDD.isEmpty) {
+      ("startingOffsets", "earliest")
+    } else {
+      ("startingOffsets", transformKafkaMetadataArrayToJson( kafkaMetadataRDD.collect() ) )
+    }
+
+    println("getKafkaMetadata " + output.toString)
+
+    output
+  }
+
+  /**
+    * @param array
+    * @return {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}
+    */
+  def transformKafkaMetadataArrayToJson(array: Array[CassandraRow]) : String = {
+      s"""{"${KafkaService.topicName}":
+          {
+           "${array(0).getLong("partition")}": ${array(0).getLong("offset")}
+          }
+         }
+      """.replaceAll("\n", "").replaceAll(" ", "")
+  }
+
   def debug() = {
-   val output = spark.sparkContext.cassandraTable("test", "radio")
+   val output = spark.sparkContext.cassandraTable(namespace, foreachTableSink)
 
     println(output.count)
     /*  output
diff --git a/src/main/scala/cassandra/CassandraKafkaMetadata.scala b/src/main/scala/cassandra/CassandraKafkaMetadata.scala
@@ -0,0 +1,17 @@
+package cassandra
+
+import kafka.KafkaMetadata
+
+object CassandraKafkaMetadata {
+  private def cql(metadata: KafkaMetadata): String = s"""
+       INSERT INTO test.kafkametadata (partition, offset)
+       VALUES(${metadata.partition}, ${metadata.offset})
+    """
+
+  //https://github.com/datastax/spark-cassandra-connector/blob/master/doc/1_connecting.md#connection-pooling
+  def save(metadata: KafkaMetadata) = {
+    CassandraDriver.connector.withSessionDo(session =>
+      session.execute(cql(metadata))
+    )
+  }
+}
diff --git a/src/main/scala/cassandra/sink/CassandraSink.scala b/src/main/scala/cassandra/sink/CassandraSink.scala
@@ -0,0 +1,64 @@
+package cassandra.sink
+
+import cassandra.{CassandraDriver, CassandraKafkaMetadata}
+import org.apache.spark.sql.DataFrame
+import org.apache.spark.sql.execution.streaming.Sink
+import org.apache.spark.sql.functions.max
+import spark.SparkHelper
+import cassandra.CassandraDriver
+import com.datastax.spark.connector._
+import kafka.KafkaMetadata
+import org.apache.spark.sql.execution.streaming.Sink
+import org.apache.spark.sql.types.LongType
+
+/**
+* must be idempotent and synchronous (@TODO check asynchronous/synchronous from Datastax's Spark connector) sink
+*/
+class CassandraSink() extends Sink {
+  private val spark = SparkHelper.getSparkSession()
+  import spark.implicits._
+  import org.apache.spark.sql.functions._
+
+  private def saveToCassandra(df: DataFrame) = {
+    println("Saving this DF to Cassandra")
+    val ds = CassandraDriver.getDatasetForCassandra(df)
+    ds.show() //Debug only
+
+    ds.rdd.saveToCassandra(CassandraDriver.namespace,
+      CassandraDriver.StreamProviderTableSink,
+      SomeColumns("title", "artist", "radio", "count")
+    )
+
+    saveKafkaMetaData(df)
+  }
+
+  /*
+   * As per SPARK-16020 arbitrary transformations are not supported, but
+   * converting to an RDD allows us to do magic.
+   */
+  override def addBatch(batchId: Long, df: DataFrame) = {
+    println(s"saveToCassandra batchId : ${batchId}")
+    saveToCassandra(df)
+  }
+
+  /**
+    * saving the highest value of offset per partition when checkpointing is not available (application upgrade for example)
+    * http://docs.datastax.com/en/cassandra/3.0/cassandra/dml/dmlTransactionsDiffer.html
+    * should be done in the same transaction as the data linked to the offsets
+    */
+  private def saveKafkaMetaData(df: DataFrame) = {
+    val kafkaMetadata = df.groupBy($"partition").agg(max($"offset").cast(LongType).as("offset")).as[KafkaMetadata]
+
+    println("saveKafkaMetaData")
+    kafkaMetadata.show()
+
+    kafkaMetadata.rdd.saveToCassandra(CassandraDriver.namespace,
+      CassandraDriver.kafkaMetadata,
+      SomeColumns("partition", "offset")
+    )
+
+    //Otherway to save offset inside Cassandra
+    //kafkaMetadata.collect().foreach(CassandraKafkaMetadata.save)
+  }
+}
+
diff --git a/src/main/scala/cassandra/sink/CassandraSinkForeach.scala b/src/main/scala/cassandra/sink/CassandraSinkForeach.scala
@@ -1,5 +1,6 @@
 package cassandra.sink
 
+import cassandra.CassandraDriver
 import com.datastax.spark.connector.cql.CassandraConnector
 import org.apache.spark.sql.ForeachWriter
 import radio.SimpleSongAggregation
@@ -11,9 +12,7 @@ import spark.SparkHelper
   * https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#using-foreach
   */
 class CassandraSinkForeach() extends ForeachWriter[SimpleSongAggregation] {
-  private val connector = CassandraConnector(SparkHelper.getSparkSession().sparkContext.getConf)
-
-  private def cql(record: SimpleSongAggregation): String = s"""
+  private def cqlRadio(record: SimpleSongAggregation): String = s"""
        insert into test.radio (title, artist, radio, count)
        values('${record.title}', '${record.artist}', '${record.radio}', ${record.count})"""
 
@@ -26,8 +25,8 @@ class CassandraSinkForeach() extends ForeachWriter[SimpleSongAggregation] {
   //https://github.com/datastax/spark-cassandra-connector/blob/master/doc/1_connecting.md#connection-pooling
   def process(record: SimpleSongAggregation) = {
     println(s"Saving record: $record")
-    connector.withSessionDo(session =>
-      session.execute(cql(record))
+    CassandraDriver.connector.withSessionDo(session =>
+      session.execute(cqlRadio(record))
     )
   }
 
diff --git a/src/main/scala/cassandra/sink/CassandraSinkProvider.scala b/src/main/scala/cassandra/sink/CassandraSinkProvider.scala
@@ -1,8 +1,5 @@
 package cassandra.sink
 
-import cassandra.CassandraDriver
-import com.datastax.spark.connector._
-import org.apache.spark.sql.execution.streaming.Sink
 import org.apache.spark.sql.sources.StreamSinkProvider
 import org.apache.spark.sql.streaming.OutputMode
 import org.apache.spark.sql.{DataFrame, SQLContext}
@@ -19,26 +16,4 @@ class CassandraSinkProvider extends StreamSinkProvider {
                           outputMode: OutputMode): CassandraSink = {
     new CassandraSink()
   }
-}
-
-/**
-  * must be idempotent and synchronous (@TODO check asynchronous/synchronous from Datastax's Spark connector) sink
-  */
-class CassandraSink() extends Sink {
-  def saveToCassandra(df: DataFrame) = {
-    df.show()
-    df.rdd.saveToCassandra(CassandraDriver.namespace,
-      CassandraDriver.StreamProviderTableSink,
-      SomeColumns("title", "artist", "radio", "count")
-    )
-  }
-
-  /*
-   * As per SPARK-16020 arbitrary transformations are not supported, but
-   * converting to an RDD allows us to do magic.
-   */
-  override def addBatch(batchId: Long, df: DataFrame) = {
-    println(s"saveToCassandra batchId : ${batchId}")
-    saveToCassandra(df)
-  }
-}
+}
diff --git a/src/main/scala/kafka/KafkaMetadata.scala b/src/main/scala/kafka/KafkaMetadata.scala
@@ -0,0 +1,3 @@
+package kafka
+
+case class KafkaMetadata(partition: Long, offset: Long)
diff --git a/src/main/scala/kafka/KafkaService.scala b/src/main/scala/kafka/KafkaService.scala
diff --git a/src/main/scala/kafka/KafkaSink.scala b/src/main/scala/kafka/KafkaSink.scala
diff --git a/src/main/scala/kafka/KafkaSource.scala b/src/main/scala/kafka/KafkaSource.scala

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+package kafka`
	`2`	`+`
	`3`	`+case class KafkaMetadata(partition: Long, offset: Long)`