RedisLabs
diff --git a/‎doc/dataframe.md‎
Lines changed: 11 additions & 9 deletions b/‎doc/dataframe.md‎
Lines changed: 11 additions & 9 deletions
diff --git a/‎src/main/scala/com/redislabs/provider/redis/RedisConfig.scala‎
Lines changed: 7 additions & 0 deletions b/‎src/main/scala/com/redislabs/provider/redis/RedisConfig.scala‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/main/scala/com/redislabs/provider/redis/package.scala‎
Lines changed: 5 additions & 1 deletion b/‎src/main/scala/com/redislabs/provider/redis/package.scala‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎src/main/scala/com/redislabs/provider/redis/rdd/RedisRDD.scala‎
Lines changed: 27 additions & 20 deletions b/‎src/main/scala/com/redislabs/provider/redis/rdd/RedisRDD.scala‎
Lines changed: 27 additions & 20 deletions
diff --git a/‎src/main/scala/org/apache/spark/sql/redis/RedisSourceRelation.scala‎
Lines changed: 46 additions & 23 deletions b/‎src/main/scala/org/apache/spark/sql/redis/RedisSourceRelation.scala‎
Lines changed: 46 additions & 23 deletions
diff --git a/‎src/main/scala/org/apache/spark/sql/redis/redis.scala‎
Lines changed: 5 additions & 0 deletions b/‎src/main/scala/org/apache/spark/sql/redis/redis.scala‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎src/test/scala/com/redislabs/provider/redis/df/BinaryDataframeSuite.scala‎
Lines changed: 54 additions & 1 deletion b/‎src/test/scala/com/redislabs/provider/redis/df/BinaryDataframeSuite.scala‎
Lines changed: 54 additions & 1 deletion
@@ -332,15 +332,17 @@ root
 
 ## DataFrame options
 
-| Name              | Description                                                                               | Type                  | Default |
-| ----------------- | ------------------------------------------------------------------------------------------| --------------------- | ------- |
-| model             | defines Redis model used to persist DataFrame, see [Persistence model](#persistence-model)| `enum [binary, hash]` | `hash`  |
-| partitions.number | number of partitions (applies only when reading dataframe)                                | `Int`                 | `3`     |
-| key.column        | when writing - specifies unique column used as a Redis key, by default a key is auto-generated. <br/> When reading - specifies column name to store hash key | `String`              | -       |
-| ttl               | data time to live in `seconds`. Data doesn't expire if `ttl` is less than `1`             | `Int`                 | `0`     |
-| infer.schema      | infer schema from random row, all columns will have `String` type                         | `Boolean`             | `false` |
-| max.pipeline.size | maximum number of commands per pipeline (used to batch commands)                          | `Int`                 | 100     |
-| scan.count        | count option of SCAN command (used to iterate over keys)                                  | `Int`                 | 100     |
+| Name                   | Description                                                                               | Type                  | Default |
+| -----------------------| ------------------------------------------------------------------------------------------| --------------------- | ------- |
+| model                  | defines Redis model used to persist DataFrame, see [Persistence model](#persistence-model)| `enum [binary, hash]` | `hash`  |
+| filter.keys.by.type    | make sure the underlying data structures match persistence model                          | `Boolean`             | `false` |
+| partitions.number      | number of partitions (applies only when reading dataframe)                                | `Int`                 | `3`     |
+| key.column             | when writing - specifies unique column used as a Redis key, by default a key is auto-generated. <br/> When reading - specifies column name to store hash key | `String`              | -       |
+| ttl                    | data time to live in `seconds`. Data doesn't expire if `ttl` is less than `1`             | `Int`                 | `0`     |
+| infer.schema           | infer schema from random row, all columns will have `String` type                         | `Boolean`             | `false` |
+| max.pipeline.size      | maximum number of commands per pipeline (used to batch commands)                          | `Int`                 | 100     |
+| scan.count             | count option of SCAN command (used to iterate over keys)                                  | `Int`                 | 100     |
+| iterator.grouping.size | the number of items to be grouped when iterating over underlying RDD partition            | `Int`                 | 1000    |
 
 
 ## Known limitations
 
@@ -66,6 +66,13 @@ case class RedisEndpoint(host: String = Protocol.DEFAULT_HOST,
   def connect(): Jedis = {
     ConnectionPool.connect(this)
   }
+
+  /**
+    * @return config with masked password. Used for logging.
+    */
+  def maskPassword(): RedisEndpoint = {
+    this.copy(auth = "")
+  }
 }
 
 case class RedisNode(endpoint: RedisEndpoint,
 
@@ -1,3 +1,7 @@
 package com.redislabs.provider
 
-package object redis extends RedisFunctions
+package object redis extends RedisFunctions {
+
+  val RedisDataTypeHash: String = "hash"
+  val RedisDataTypeString: String = "string"
+}
@@ -45,7 +45,7 @@ class RedisKVRDD(prev: RDD[String],
       val res = stringKeys.zip(response).iterator.asInstanceOf[Iterator[(String, String)]]
       conn.close()
       res
-    }.iterator
+    }
   }
 
   def getHASH(nodes: Array[RedisNode], keys: Iterator[String]): Iterator[(String, String)] = {
@@ -55,7 +55,7 @@ class RedisKVRDD(prev: RDD[String],
       val res = hashKeys.flatMap(conn.hgetAll).iterator
       conn.close()
       res
-    }.iterator
+    }
   }
 }
 
@@ -84,7 +84,7 @@ class RedisListRDD(prev: RDD[String],
       val res = setKeys.flatMap(conn.smembers).iterator
       conn.close()
       res
-    }.iterator
+    }
   }
 
   def getLIST(nodes: Array[RedisNode], keys: Iterator[String]): Iterator[String] = {
@@ -94,7 +94,7 @@ class RedisListRDD(prev: RDD[String],
       val res = listKeys.flatMap(conn.lrange(_, 0, -1)).iterator
       conn.close()
       res
-    }.iterator
+    }
   }
 }
 
@@ -146,7 +146,7 @@ class RedisZSetRDD[T: ClassTag](prev: RDD[String],
       }
       conn.close()
       res
-    }.iterator.asInstanceOf[Iterator[T]]
+    }.asInstanceOf[Iterator[T]]
   }
 
   private def getZSetByScore(nodes: Array[RedisNode],
@@ -168,7 +168,7 @@ class RedisZSetRDD[T: ClassTag](prev: RDD[String],
       }
       conn.close()
       res
-    }.iterator.asInstanceOf[Iterator[T]]
+    }.asInstanceOf[Iterator[T]]
   }
 }
 
@@ -255,7 +255,11 @@ class RedisKeysRDD(sc: SparkContext,
         slot >= sPos && slot <= ePos
       }).iterator
     } else {
-      getKeys(nodes, sPos, ePos, keyPattern).iterator
+      logInfo {
+        val nodesPassMasked = nodes.map(n => n.copy(endpoint = n.endpoint.maskPassword())).mkString
+        s"Computing partition, get keys partId: ${partition.index},  [$sPos - $ePos] nodes: $nodesPassMasked"
+      }
+      getKeys(nodes, sPos, ePos, keyPattern)
     }
   }
 
@@ -392,12 +396,14 @@ trait Keys {
   }
 
   /**
+    * Scan keys, the result may contain duplicates
+    *
     * @param jedis
     * @param params
     * @return keys of params pattern in jedis
     */
-  private def scanKeys(jedis: Jedis, params: ScanParams): util.HashSet[String] = {
-    val keys = new util.HashSet[String]
+  private def scanKeys(jedis: Jedis, params: ScanParams): util.List[String] = {
+    val keys = new util.ArrayList[String]
     var cursor = "0"
     do {
       val scan = jedis.scan(cursor, params)
@@ -418,24 +424,25 @@ trait Keys {
               sPos: Int,
               ePos: Int,
               keyPattern: String)
-             (implicit readWriteConfig: ReadWriteConfig): util.HashSet[String] = {
-    val keys = new util.HashSet[String]()
+             (implicit readWriteConfig: ReadWriteConfig): Iterator[String] = {
+    val endpoints = nodes.map(_.endpoint).distinct
+
     if (isRedisRegex(keyPattern)) {
-      nodes.foreach { node =>
-        val conn = node.endpoint.connect()
+      endpoints.iterator.map { endpoint =>
+        val keys = new util.HashSet[String]()
+        val conn = endpoint.connect()
         val params = new ScanParams().`match`(keyPattern).count(readWriteConfig.scanCount)
-        val res = keys.addAll(scanKeys(conn, params).filter { key =>
+        keys.addAll(scanKeys(conn, params).filter { key =>
           val slot = JedisClusterCRC16.getSlot(key)
           slot >= sPos && slot <= ePos
         })
         conn.close()
-        res
-      }
+        keys.iterator()
+      }.flatten
     } else {
       val slot = JedisClusterCRC16.getSlot(keyPattern)
-      if (slot >= sPos && slot <= ePos) keys.add(keyPattern)
+      if (slot >= sPos && slot <= ePos) Iterator(keyPattern) else Iterator()
     }
-    keys
   }
 
   /**
@@ -456,9 +463,9 @@ trait Keys {
     * @param keys  list of keys
     * @return (node: (key1, key2, ...), node2: (key3, key4,...), ...)
     */
-  def groupKeysByNode(nodes: Array[RedisNode], keys: Iterator[String]): Array[(RedisNode, Array[String])] = {
+  def groupKeysByNode(nodes: Array[RedisNode], keys: Iterator[String]): Iterator[(RedisNode, Array[String])] = {
     keys.map(key => (getMasterNode(nodes, key), key)).toArray.groupBy(_._1).
-      map(x => (x._1, x._2.map(_._2))).toArray
+      map(x => (x._1, x._2.map(_._2))).iterator
   }
 
   /**
 
@@ -6,7 +6,7 @@ import com.redislabs.provider.redis.rdd.Keys
 import com.redislabs.provider.redis.util.ConnectionUtils.withConnection
 import com.redislabs.provider.redis.util.Logging
 import com.redislabs.provider.redis.util.PipelineUtils._
-import com.redislabs.provider.redis.{ReadWriteConfig, RedisConfig, RedisEndpoint, RedisNode, toRedisContext}
+import com.redislabs.provider.redis.{ReadWriteConfig, RedisConfig, RedisDataTypeHash, RedisDataTypeString, RedisEndpoint, RedisNode, toRedisContext}
 import org.apache.commons.lang3.SerializationUtils
 import org.apache.spark.rdd.RDD
 import org.apache.spark.sql.catalyst.expressions.GenericRow
@@ -62,16 +62,19 @@ class RedisSourceRelation(override val sqlContext: SQLContext,
     */
   @volatile private var currentSchema: StructType = _
 
-  /** parameters **/
-  private val tableNameOpt: Option[String] = parameters.get(SqlOptionTableName)
-  private val keysPatternOpt: Option[String] = parameters.get(SqlOptionKeysPattern)
+  /** parameters (sorted alphabetically) **/
+  private val filterKeysByTypeEnabled = parameters.get(SqlOptionFilterKeysByType).exists(_.toBoolean)
+  private val inferSchemaEnabled = parameters.get(SqlOptionInferSchema).exists(_.toBoolean)
+  private val iteratorGroupingSize = parameters.get(SqlOptionIteratorGroupingSize).map(_.toInt)
+    .getOrElse(SqlOptionIteratorGroupingSizeDefault)
   private val keyColumn = parameters.get(SqlOptionKeyColumn)
   private val keyName = keyColumn.getOrElse("_id")
+  private val keysPatternOpt: Option[String] = parameters.get(SqlOptionKeysPattern)
   private val numPartitions = parameters.get(SqlOptionNumPartitions).map(_.toInt)
     .getOrElse(SqlOptionNumPartitionsDefault)
-  private val inferSchemaEnabled = parameters.get(SqlOptionInferSchema).exists(_.toBoolean)
   private val persistenceModel = parameters.getOrDefault(SqlOptionModel, SqlOptionModelHash)
   private val persistence = RedisPersistence(persistenceModel)
+  private val tableNameOpt: Option[String] = parameters.get(SqlOptionTableName)
   private val ttl = parameters.get(SqlOptionTTL).map(_.toInt).getOrElse(0)
 
   /**
@@ -129,15 +132,19 @@ class RedisSourceRelation(override val sqlContext: SQLContext,
 
     // write data
     data.foreachPartition { partition =>
-      val rowsWithKey: Map[String, Row] = partition.map(row => dataKeyId(row) -> row).toMap
-      groupKeysByNode(redisConfig.hosts, rowsWithKey.keysIterator).foreach { case (node, keys) =>
-        val conn = node.connect()
-        foreachWithPipeline(conn, keys) { (pipeline, key) =>
-          val row = rowsWithKey(key)
-          val encodedRow = persistence.encodeRow(keyName, row)
-          persistence.save(pipeline, key, encodedRow, ttl)
+      // grouped iterator to only allocate memory for a portion of rows
+      partition.grouped(iteratorGroupingSize).foreach { batch =>
+        // the following can be optimized to not create a map
+        val rowsWithKey: Map[String, Row] = batch.map(row => dataKeyId(row) -> row).toMap
+        groupKeysByNode(redisConfig.hosts, rowsWithKey.keysIterator).foreach { case (node, keys) =>
+          val conn = node.connect()
+          foreachWithPipeline(conn, keys) { (pipeline, key) =>
+            val row = rowsWithKey(key)
+            val encodedRow = persistence.encodeRow(keyName, row)
+            persistence.save(pipeline, key, encodedRow, ttl)
+          }
+          conn.close()
         }
-        conn.close()
       }
     }
   }
@@ -158,24 +165,31 @@ class RedisSourceRelation(override val sqlContext: SQLContext,
           }
         StructType(filteredFields)
       }
+      val keyType =
+        if (persistenceModel == SqlOptionModelBinary) {
+          RedisDataTypeString
+        } else {
+          RedisDataTypeHash
+        }
       keysRdd.mapPartitions { partition =>
-        groupKeysByNode(redisConfig.hosts, partition)
-          .flatMap { case (node, keys) =>
-            scanRows(node, keys, filteredSchema, requiredColumns)
-          }
-          .iterator
+        // grouped iterator to only allocate memory for a portion of rows
+        partition.grouped(iteratorGroupingSize).map { batch =>
+          groupKeysByNode(redisConfig.hosts, batch.iterator)
+            .flatMap { case (node, keys) =>
+              scanRows(node, keys, keyType, filteredSchema, requiredColumns)
+            }
+        }.flatten
       }
     }
   }
 
-
   override def unhandledFilters(filters: Array[Filter]): Array[Filter] = filters
 
   /**
     * @return true if data exists in redis
     */
   def isEmpty: Boolean = {
-    sc.fromRedisKeyPattern(dataKeyPattern).isEmpty()
+    sc.fromRedisKeyPattern(dataKeyPattern, partitionNum = numPartitions).isEmpty()
   }
 
   /**
@@ -257,13 +271,22 @@ class RedisSourceRelation(override val sqlContext: SQLContext,
   /**
     * read rows from redis
     */
-  private def scanRows(node: RedisNode, keys: Seq[String], schema: StructType,
+  private def scanRows(node: RedisNode, keys: Seq[String], keyType: String, schema: StructType,
                        requiredColumns: Seq[String]): Seq[Row] = {
     withConnection(node.connect()) { conn =>
-      val pipelineValues = mapWithPipeline(conn, keys) { (pipeline, key) =>
+      val filteredKeys =
+        if (filterKeysByTypeEnabled) {
+          val keyTypes = mapWithPipeline(conn, keys) { (pipeline, key) =>
+            pipeline.`type`(key)
+          }
+          keys.zip(keyTypes).filter(_._2 == keyType).map(_._1)
+        } else {
+          keys
+        }
+      val pipelineValues = mapWithPipeline(conn, filteredKeys) { (pipeline, key) =>
         persistence.load(pipeline, key, requiredColumns)
       }
-      keys.zip(pipelineValues).map { case (key, value) =>
+      filteredKeys.zip(pipelineValues).map { case (key, value) =>
         val keyMap = keyName -> tableKey(keysPrefixPattern, key)
         persistence.decodeRow(keyMap, value, schema, requiredColumns)
       }
 
@@ -6,6 +6,8 @@ package org.apache.spark.sql
 package object redis {
 
   val RedisFormat = "org.apache.spark.sql.redis"
+
+  val SqlOptionFilterKeysByType = "filter.keys.by.type"
   val SqlOptionNumPartitions = "partitions.number"
   /**
     * Default read operation number of partitions.
@@ -22,4 +24,7 @@ package object redis {
 
   val SqlOptionMaxPipelineSize = "max.pipeline.size"
   val SqlOptionScanCount = "scan.count"
+
+  val SqlOptionIteratorGroupingSize = "iterator.grouping.size"
+  val SqlOptionIteratorGroupingSizeDefault = 1000
 }
@@ -1,10 +1,14 @@
 package com.redislabs.provider.redis.df
 
+import com.redislabs.provider.redis.toRedisContext
+import com.redislabs.provider.redis.util.Person
 import com.redislabs.provider.redis.util.Person._
+import com.redislabs.provider.redis.util.TestUtils._
+import org.apache.commons.lang3.SerializationUtils
 import org.apache.spark.SparkException
+import org.apache.spark.sql.redis.RedisSourceRelation.tableDataKeyPattern
 import org.apache.spark.sql.redis._
 import org.scalatest.Matchers
-import com.redislabs.provider.redis.util.TestUtils._
 
 /**
   * @author The Viet Nguyen
@@ -55,4 +59,53 @@ trait BinaryDataframeSuite extends RedisDataframeSuite with Matchers {
         .show()
     }
   }
+
+  test("load filtered hash keys with strings") {
+    val tableName = generateTableName(TableNamePrefix)
+    val df = spark.createDataFrame(data)
+    df.write.format(RedisFormat)
+      .option(SqlOptionTableName, tableName)
+      .option(SqlOptionModel, SqlOptionModelHash)
+      .save()
+    val extraKey = RedisSourceRelation.uuid()
+    saveMap(tableName, extraKey, Person.dataMaps.head)
+    val loadedIds = spark.read.format(RedisFormat)
+      .schema(Person.fullSchema)
+      .option(SqlOptionTableName, tableName)
+      .option(SqlOptionModel, SqlOptionModelHash)
+      .option(SqlOptionFilterKeysByType, value = true)
+      .load()
+      .collect()
+      .map { r =>
+        r.getAs[String]("_id")
+      }
+    loadedIds.length shouldBe 2
+    loadedIds should not contain extraKey
+    val countAll = sc.fromRedisKeyPattern(tableDataKeyPattern(tableName)).count()
+    countAll shouldBe 3
+  }
+
+  test("load unfiltered hash keys with strings") {
+    val tableName = generateTableName(TableNamePrefix)
+    val df = spark.createDataFrame(data)
+    df.write.format(RedisFormat)
+      .option(SqlOptionTableName, tableName)
+      .option(SqlOptionModel, SqlOptionModelHash)
+      .save()
+    saveMap(tableName, RedisSourceRelation.uuid(), Person.dataMaps.head)
+    intercept[SparkException] {
+      spark.read.format(RedisFormat)
+        .option(SqlOptionTableName, tableName)
+        .option(SqlOptionModel, SqlOptionModelHash)
+        .load()
+        .collect()
+    }
+  }
+
+  def serialize(value: Map[String, String]): Array[Byte] = {
+    val valuesArray = value.values.toArray
+    SerializationUtils.serialize(valuesArray)
+  }
+
+  def saveMap(tableName: String, key: String, value: Map[String, String]): Unit
 }
Original file line number	Diff line number	Diff line change
`@@ -66,6 +66,13 @@ case class RedisEndpoint(host: String = Protocol.DEFAULT_HOST,`
`66`	`66`	`def connect(): Jedis = {`
`67`	`67`	`ConnectionPool.connect(this)`
`68`	`68`	`}`
	`69`	`+`
	`70`	`+ /**`
	`71`	`+ * @return config with masked password. Used for logging.`
	`72`	`+ */`
	`73`	`+ def maskPassword(): RedisEndpoint = {`
	`74`	`+ this.copy(auth = "")`
	`75`	`+ }`
`69`	`76`	`}`
`70`	`77`
`71`	`78`	`case class RedisNode(endpoint: RedisEndpoint,`