apache · jinyangli34 · Oct 4, 2024 · Oct 4, 2024 · Oct 4, 2024 · Oct 7, 2024
diff --git a/core/src/test/java/org/apache/iceberg/TestMetrics.java b/core/src/test/java/org/apache/iceberg/TestMetrics.java
@@ -533,7 +533,7 @@ public void testMetricsForNestedStructFieldsWithMultipleRowGroup() throws IOExce
 
     assertThat(recordsFile).isNotNull();
     // rowgroup size should be > 1
-    assertThat(splitCount(recordsFile)).isEqualTo(3);
+    assertThat(splitCount(recordsFile)).isEqualTo(2);
 
     assertThat(metrics.recordCount()).isEqualTo(201L);
     assertCounts(1, 201L, 0L, metrics);

diff --git a/parquet/src/main/java/org/apache/iceberg/parquet/ParquetWriter.java b/parquet/src/main/java/org/apache/iceberg/parquet/ParquetWriter.java
@@ -66,6 +66,9 @@ class ParquetWriter<T> implements FileAppender<T>, Closeable {
   private boolean closed;
   private ParquetFileWriter writer;
   private int rowGroupOrdinal;
+  private long currentRawBufferedSize = 0;
+  private long totalRawBufferedSize = 0;
+  private long totalRowGroupSize = 0;
 
   private static final String COLUMN_INDEX_TRUNCATE_LENGTH = "parquet.columnindex.truncate.length";
   private static final int DEFAULT_COLUMN_INDEX_TRUNCATE_LENGTH = 64;
@@ -132,7 +135,9 @@ private void ensureWriterInitialized() {
   @Override
   public void add(T value) {
     recordCount += 1;
+    long sizeBeforeWrite = writeStore.getBufferedSize();
     model.write(0, value);
+    this.currentRawBufferedSize += writeStore.getBufferedSize() - sizeBeforeWrite;
     writeStore.endRecord();
     checkSize();
   }
@@ -167,7 +172,7 @@ public long length() {
       if (!closed && recordCount > 0) {
         // recordCount > 0 when there are records in the write store that have not been flushed to
         // the Parquet file
-        length += writeStore.getBufferedSize();
+        length += estimateBufferedSize();
       }
 
       return length;
@@ -185,14 +190,25 @@ public List<Long> splitOffsets() {
     return null;
   }
 
+  /*
+   * Data size could reduce after written out due to encoding/compression.
+   * Use the ratio totalRowGroupSize / totalBufferSize to estimate the size after write out.
+   */
+  private long estimateBufferedSize() {
+    if (totalRowGroupSize == 0 || totalRawBufferedSize == 0 || currentRawBufferedSize == 0) {
+      return writeStore.getBufferedSize();
+    }
+
+    return currentRawBufferedSize * totalRowGroupSize / totalRawBufferedSize;
+  }
+
   private void checkSize() {
     if (recordCount >= nextCheckRecordCount) {
-      long bufferedSize = writeStore.getBufferedSize();
-      double avgRecordSize = ((double) bufferedSize) / recordCount;
-
-      if (bufferedSize > (targetRowGroupSize - 2 * avgRecordSize)) {
+      long bufferedSize = estimateBufferedSize();
+      if (bufferedSize > targetRowGroupSize) {
         flushRowGroup(false);
       } else {
+        double avgRecordSize = ((double) bufferedSize) / recordCount;
         long remainingSpace = targetRowGroupSize - bufferedSize;
         long remainingRecords = (long) (remainingSpace / avgRecordSize);
         this.nextCheckRecordCount =
@@ -211,6 +227,8 @@ private void flushRowGroup(boolean finished) {
         writer.startBlock(recordCount);
         writeStore.flush();
         pageStore.flushToFileWriter(writer);
+        totalRawBufferedSize += currentRawBufferedSize;
+        totalRowGroupSize += writeStore.getBufferedSize();
         writer.endBlock();
         if (!finished) {
           writeStore.close();
@@ -245,6 +263,7 @@ private void startRowGroup() {
     this.writeStore = props.newColumnWriteStore(parquetSchema, pageStore, pageStore);
 
     model.setColumnStore(writeStore);
+    this.currentRawBufferedSize = 0;
   }
 
   @Override

diff --git a/parquet/src/test/java/org/apache/iceberg/parquet/TestParquet.java b/parquet/src/test/java/org/apache/iceberg/parquet/TestParquet.java
@@ -36,6 +36,7 @@
 import java.util.Collections;
 import java.util.List;
 import java.util.function.Function;
+import java.util.stream.IntStream;
 import org.apache.avro.generic.GenericData;
 import org.apache.avro.generic.GenericRecord;
 import org.apache.avro.generic.GenericRecordBuilder;
@@ -46,6 +47,7 @@
 import org.apache.iceberg.avro.AvroSchemaUtil;
 import org.apache.iceberg.io.InputFile;
 import org.apache.iceberg.relocated.com.google.common.base.Strings;
+import org.apache.iceberg.relocated.com.google.common.collect.ImmutableList;
 import org.apache.iceberg.relocated.com.google.common.collect.ImmutableMap;
 import org.apache.iceberg.relocated.com.google.common.collect.Iterables;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
@@ -57,6 +59,7 @@
 import org.apache.parquet.hadoop.ParquetFileReader;
 import org.apache.parquet.hadoop.ParquetWriter;
 import org.apache.parquet.hadoop.metadata.BlockMetaData;
+import org.apache.parquet.hadoop.metadata.ParquetMetadata;
 import org.apache.parquet.schema.MessageType;
 import org.junit.jupiter.api.Test;
 import org.junit.jupiter.api.io.TempDir;
@@ -219,6 +222,52 @@ public void testTwoLevelList() throws IOException {
     assertThat(recordRead.get("topbytes")).isEqualTo(expectedBinary);
   }
 
+  @Test
+  public void testParquetRowGroupSize() throws IOException {
+    // verify parquet row group size should be close to configured size
+    int recordCount = 100000;
+    int columnCount = 50;
+
+    List<Types.NestedField> columns =
+        IntStream.rangeClosed(1, columnCount)
+            .mapToObj(i -> optional(i, "stringCol" + i, Types.StringType.get()))
+            .collect(ImmutableList.toImmutableList());
+    Schema schema = new Schema(columns);
+
+    File file = createTempFile(temp);
+
+    List<GenericData.Record> records = Lists.newArrayListWithCapacity(recordCount);
+    org.apache.avro.Schema avroSchema = AvroSchemaUtil.convert(schema.asStruct());
+    for (int i = 1; i <= recordCount; i++) {
+      GenericData.Record record = new GenericData.Record(avroSchema);
+      for (Types.NestedField column : columns) {
+        String value = column.name().repeat(10) + i;
+        record.put(column.name(), value);
+      }
+
+      records.add(record);
+    }
+
+    long actualSize =
+        write(
+            file,
+            schema,
+            ImmutableMap.of("write.parquet.row-group-size-bytes", "1048576"),
+            ParquetAvroWriter::buildWriter,
+            records.toArray(new GenericData.Record[] {}));
+
+    try (ParquetFileReader reader = ParquetFileReader.open(ParquetIO.file(localInput(file)))) {
+      ParquetMetadata footer = reader.getFooter();
+      for (int i = 1; i < footer.getBlocks().size() - 1; i++) {
-      for (int i = 1; i < footer.getBlocks().size() - 1; i++) {
+      for (int i = 0; i < footer.getBlocks().size(); i++) {
-      for (int i = 1; i < footer.getBlocks().size() - 1; i++) {
+      for (int i = 0; i < footer.getBlocks().size(); i++) {
+        assertThat(footer.getBlocks().get(i).getCompressedSize())
+            .isBetween((long) 900 * 1024, (long) 1200 * 1024);
+      }
+
+      assertThat(footer.getBlocks().get(footer.getBlocks().size() - 1).getCompressedSize())
+          .isLessThan((long) 1200 * 1024);
+    }
+  }
+
   private Pair<File, Long> generateFile(
       Function<MessageType, ParquetValueWriter<?>> createWriterFunc,
       int desiredRecordCount,

diff --git a/...v3.5/spark/src/test/java/org/apache/iceberg/spark/actions/TestRewriteDataFilesAction.java b/...v3.5/spark/src/test/java/org/apache/iceberg/spark/actions/TestRewriteDataFilesAction.java
@@ -557,8 +557,8 @@ public void testBinPackCombineMixedFiles() {
 
   @Test
   public void testBinPackCombineMediumFiles() {
-    Table table = createTable(4);
-    shouldHaveFiles(table, 4);
+    Table table = createTable(6);
+    shouldHaveFiles(table, 6);
 
     List<Object[]> expectedRecords = currentData();
     int targetSize = ((int) testDataSize(table) / 3);
@@ -578,7 +578,7 @@ public void testBinPackCombineMediumFiles() {
 
     assertThat(result.rewrittenDataFilesCount())
         .as("Action should delete 4 data files")
-        .isEqualTo(4);
+        .isEqualTo(6);
     assertThat(result.addedDataFilesCount()).as("Action should add 3 data files").isEqualTo(3);
     assertThat(result.rewrittenBytesCount()).isEqualTo(dataSizeBefore);