API: add isNaN and notNaN predicates

apache · rdblue · Dec 6, 2020 · Nov 4, 2020 · Nov 18, 2020 · Nov 23, 2020
commit 951699acce5dd52b5dd008a20619534f9362570d
diff --git a/api/src/main/java/org/apache/iceberg/expressions/BoundUnaryPredicate.java b/api/src/main/java/org/apache/iceberg/expressions/BoundUnaryPredicate.java
@@ -46,18 +46,35 @@ public boolean test(T value) {
         return value == null;
       case NOT_NULL:
         return value != null;
+      case IS_NAN:
+        return isNaN(value);
+      case NOT_NAN:
+        return !isNaN(value);
       default:
         throw new IllegalStateException("Invalid operation for BoundUnaryPredicate: " + op());
     }
   }
 
+  private boolean isNaN(T value) {
+    if (value instanceof Double) {
+      return Double.isNaN((Double) value);
+    } else if (value instanceof Float) {
+      return Float.isNaN((Float) value);
+    }
+    return false;
+  }
+
   @Override
   public String toString() {
     switch (op()) {
       case IS_NULL:
         return "is_null(" + term() + ")";
       case NOT_NULL:
         return "not_null(" + term() + ")";
+      case IS_NAN:
+        return "is_nan(" + term() + ")";
+      case NOT_NAN:
+        return "not_nan(" + term() + ")";
       default:
         return "Invalid unary predicate: operation = " + op();
     }

diff --git a/api/src/main/java/org/apache/iceberg/expressions/Evaluator.java b/api/src/main/java/org/apache/iceberg/expressions/Evaluator.java
@@ -91,6 +91,27 @@ public <T> Boolean notNull(Bound<T> valueExpr) {
       return valueExpr.eval(struct) != null;
     }
 
+    @Override
+    public <T> Boolean isNaN(Bound<T> valueExpr) {
+      T value = valueExpr.eval(struct);
+      if (value == null) {
+        return false;
+      }
+
+      if (value instanceof Double) {
+        return Double.isNaN((Double) value);
+      } else if (value instanceof Float) {
+        return Float.isNaN((Float) value);
+      } else {
+        return false;
+      }
+    }
+
+    @Override
+    public <T> Boolean notNaN(Bound<T> ref) {
+      return !isNaN(ref);
+    }
+
     @Override
     public <T> Boolean lt(Bound<T> valueExpr, Literal<T> lit) {
       Comparator<T> cmp = lit.comparator();

diff --git a/api/src/main/java/org/apache/iceberg/expressions/Expression.java b/api/src/main/java/org/apache/iceberg/expressions/Expression.java
@@ -30,6 +30,8 @@ enum Operation {
     FALSE,
     IS_NULL,
     NOT_NULL,
+    IS_NAN,
+    NOT_NAN,
     LT,
     LT_EQ,
     GT,
@@ -52,6 +54,10 @@ public Operation negate() {
           return Operation.NOT_NULL;
         case NOT_NULL:
           return Operation.IS_NULL;
+        case IS_NAN:
+          return Operation.NOT_NAN;
+        case NOT_NAN:
+          return Operation.IS_NAN;
         case LT:
           return Operation.GT_EQ;
         case LT_EQ:

diff --git a/api/src/main/java/org/apache/iceberg/expressions/ExpressionVisitors.java b/api/src/main/java/org/apache/iceberg/expressions/ExpressionVisitors.java
@@ -75,6 +75,14 @@ public <T> R notNull(BoundReference<T> ref) {
       return null;
     }
 
+    public <T> R isNaN(BoundReference<T> ref) {
+      return null;
+    }
+
+    public <T> R notNaN(BoundReference<T> ref) {
+      return null;
+    }
+
     public <T> R lt(BoundReference<T> ref, Literal<T> lit) {
       return null;
     }
@@ -143,6 +151,10 @@ public <T> R predicate(BoundPredicate<T> pred) {
             return isNull((BoundReference<T>) pred.term());
           case NOT_NULL:
             return notNull((BoundReference<T>) pred.term());
+          case IS_NAN:
+            return isNaN((BoundReference<T>) pred.term());
+          case NOT_NAN:
+            return notNaN((BoundReference<T>) pred.term());
           default:
             throw new IllegalStateException("Invalid operation for BoundUnaryPredicate: " + pred.op());
         }
@@ -176,6 +188,14 @@ public <T> R notNull(Bound<T> expr) {
       return null;
     }
 
+    public <T> R isNaN(Bound<T> expr) {
+      return null;
+    }
+
+    public <T> R notNaN(Bound<T> expr) {
+      return null;
+    }
+
     public <T> R lt(Bound<T> expr, Literal<T> lit) {
       return null;
     }
@@ -241,6 +261,10 @@ public <T> R predicate(BoundPredicate<T> pred) {
             return isNull(pred.term());
           case NOT_NULL:
             return notNull(pred.term());
+          case IS_NAN:
+            return isNaN(pred.term());
+          case NOT_NAN:
+            return notNaN(pred.term());
           default:
             throw new IllegalStateException("Invalid operation for BoundUnaryPredicate: " + pred.op());
         }

diff --git a/api/src/main/java/org/apache/iceberg/expressions/Expressions.java b/api/src/main/java/org/apache/iceberg/expressions/Expressions.java
@@ -123,6 +123,22 @@ public static <T> UnboundPredicate<T> notNull(UnboundTerm<T> expr) {
     return new UnboundPredicate<>(Expression.Operation.NOT_NULL, expr);
   }
 
+  public static <T> UnboundPredicate<T> isNaN(String name) {
+    return new UnboundPredicate<>(Expression.Operation.IS_NAN, ref(name));
+  }
+
+  public static <T> UnboundPredicate<T> isNaN(UnboundTerm<T> expr) {
+    return new UnboundPredicate<>(Expression.Operation.IS_NAN, expr);
+  }
+
+  public static <T> UnboundPredicate<T> notNaN(String name) {
+    return new UnboundPredicate<>(Expression.Operation.NOT_NAN, ref(name));
+  }
+
+  public static <T> UnboundPredicate<T> notNaN(UnboundTerm<T> expr) {
+    return new UnboundPredicate<>(Expression.Operation.NOT_NAN, expr);
+  }
+
   public static <T> UnboundPredicate<T> lessThan(String name, T value) {
     return new UnboundPredicate<>(Expression.Operation.LT, ref(name), value);
   }
@@ -220,7 +236,8 @@ public static <T> UnboundPredicate<T> predicate(Operation op, String name, T val
   }
 
   public static <T> UnboundPredicate<T> predicate(Operation op, String name, Literal<T> lit) {
-    Preconditions.checkArgument(op != Operation.IS_NULL && op != Operation.NOT_NULL,
+    Preconditions.checkArgument(
+        op != Operation.IS_NULL && op != Operation.NOT_NULL && op != Operation.IS_NAN && op != Operation.NOT_NAN,
         "Cannot create %s predicate inclusive a value", op);
     return new UnboundPredicate<T>(op, ref(name), lit);
   }
@@ -230,7 +247,8 @@ public static <T> UnboundPredicate<T> predicate(Operation op, String name, Itera
   }
 
   public static <T> UnboundPredicate<T> predicate(Operation op, String name) {
-    Preconditions.checkArgument(op == Operation.IS_NULL || op == Operation.NOT_NULL,
+    Preconditions.checkArgument(
+        op == Operation.IS_NULL || op == Operation.NOT_NULL || op == Operation.IS_NAN || op == Operation.NOT_NAN,
         "Cannot create %s predicate without a value", op);
     return new UnboundPredicate<>(op, ref(name));
   }

diff --git a/api/src/main/java/org/apache/iceberg/expressions/InclusiveMetricsEvaluator.java b/api/src/main/java/org/apache/iceberg/expressions/InclusiveMetricsEvaluator.java
@@ -76,6 +76,7 @@ public boolean eval(ContentFile<?> file) {
   private class MetricsEvalVisitor extends BoundExpressionVisitor<Boolean> {
     private Map<Integer, Long> valueCounts = null;
     private Map<Integer, Long> nullCounts = null;
+    private Map<Integer, Long> nanCounts = null;
     private Map<Integer, ByteBuffer> lowerBounds = null;
     private Map<Integer, ByteBuffer> upperBounds = null;
 
@@ -93,6 +94,7 @@ private boolean eval(ContentFile<?> file) {
 
       this.valueCounts = file.valueCounts();
       this.nullCounts = file.nullValueCounts();
+      this.nanCounts = file.nanValueCounts();
       this.lowerBounds = file.lowerBounds();
       this.upperBounds = file.upperBounds();
 
@@ -150,6 +152,53 @@ public <T> Boolean notNull(BoundReference<T> ref) {
       return ROWS_MIGHT_MATCH;
     }
 
+    @Override
+    public <T> Boolean isNaN(BoundReference<T> ref) {
+      Integer id = ref.fieldId();
+
+      if (nanCounts != null && nanCounts.containsKey(id) && nanCounts.get(id) == 0) {
+        return ROWS_CANNOT_MATCH;
+      }
+
+      // when there's no nanCounts information, but we already know the column only contains null,
+      // it's guaranteed that there's no NaN value
+      if (containsNullsOnly(id)) {
+        return ROWS_CANNOT_MATCH;
+      }
+
+      return ROWS_MIGHT_MATCH;
+    }
+
+    @Override
+    @SuppressWarnings("checkstyle:CyclomaticComplexity")
+    public <T> Boolean notNaN(BoundReference<T> ref) {
+      Integer id = ref.fieldId();
+
+      if (nanCounts != null && nanCounts.containsKey(id) &&
+          valueCounts != null && valueCounts.containsKey(id)) {
+        if (nanCounts.get(id).equals(valueCounts.get(id))) {
+          return ROWS_CANNOT_MATCH;
+        }
+
+        return ROWS_MIGHT_MATCH;
+      }
+
+      // for v1 table, when NaN could still be upper/lower bound,
+      // if upper == lower == NaN and null count == 0, the column will only contain NaN
+      if (nullCounts != null && nullCounts.getOrDefault(id, -1L) == 0 &&
+          upperBounds != null && upperBounds.containsKey(id) &&
+          lowerBounds != null && upperBounds.get(id).equals(lowerBounds.get(id))) {
+        T lower = Conversions.fromByteBuffer(ref.type(), lowerBounds.get(id));
+
+        if ((lower instanceof Double && Double.isNaN((Double) lower)) ||
+            (lower instanceof Float && Float.isNaN((Float) lower))) {
+          return ROWS_CANNOT_MATCH;
+        }
+      }
+
+      return ROWS_MIGHT_MATCH;
+    }
+
     @Override
     public <T> Boolean lt(BoundReference<T> ref, Literal<T> lit) {
       Integer id = ref.fieldId();

diff --git a/api/src/main/java/org/apache/iceberg/expressions/ManifestEvaluator.java b/api/src/main/java/org/apache/iceberg/expressions/ManifestEvaluator.java
@@ -142,6 +142,25 @@ public <T> Boolean notNull(BoundReference<T> ref) {
       return ROWS_MIGHT_MATCH;
     }
 
+    @Override
+    public <T> Boolean isNaN(BoundReference<T> ref) {
+      int pos = Accessors.toPosition(ref.accessor());
+      // containsNull encodes whether at least one partition value is null, lowerBound is null if
+      // all partition values are null.
+      ByteBuffer lowerBound = stats.get(pos).lowerBound();
+      if (lowerBound == null) {
+        return ROWS_CANNOT_MATCH; // all values are null
+      }
+
+      return ROWS_MIGHT_MATCH;
+    }
+
+    @Override
+    public <T> Boolean notNaN(BoundReference<T> ref) {
+      // we don't have enough information to tell if there is no NaN value
+      return ROWS_MIGHT_MATCH;
+    }
+
     @Override
     public <T> Boolean lt(BoundReference<T> ref, Literal<T> lit) {
       int pos = Accessors.toPosition(ref.accessor());

diff --git a/api/src/main/java/org/apache/iceberg/expressions/ResidualEvaluator.java b/api/src/main/java/org/apache/iceberg/expressions/ResidualEvaluator.java
@@ -152,6 +152,30 @@ public <T> Expression notNull(BoundReference<T> ref) {
       return (ref.eval(struct) != null) ? alwaysTrue() : alwaysFalse();
     }
 
+    @Override
+    public <T> Expression isNaN(BoundReference<T> ref) {
+      return isNaN(ref.eval(struct)) ? alwaysTrue() : alwaysFalse();
+    }
+
+    @Override
+    public <T> Expression notNaN(BoundReference<T> ref) {
+      return isNaN(ref.eval(struct)) ? alwaysFalse() : alwaysTrue();
+    }
+
+    private <T> boolean isNaN(T value) {
+      if (value == null) {
+        return false;
+      }
+
+      if (value instanceof Double) {
+        return Double.isNaN((Double) value);
+      } else if (value instanceof Float) {
+        return Float.isNaN((Float) value);
+      } else {
+        return false;
+      }
+    }
+
     @Override
     public <T> Expression lt(BoundReference<T> ref, Literal<T> lit) {
       Comparator<T> cmp = lit.comparator();