Implement writing bloom filters in tables.

nigeltao · nigeltao · commit 42873988567a · 2017-01-07T11:17:17.000+11:00
diff --git a/table/reader.go b/table/reader.go
@@ -172,7 +172,7 @@ var _ db.Iterator = (*tableIter)(nil)
 // opposed to iterating over a range of keys (where the minimum of that range
 // isn't necessarily in the table). In that case, i.err will be set to
 // db.ErrNotFound if f does not contain the key.
-func (i *tableIter) nextBlock(key []byte, f *filter) bool {
+func (i *tableIter) nextBlock(key []byte, f *filterReader) bool {
 	if !i.index.Next() {
 		i.err = i.index.err
 		return false
@@ -246,18 +246,18 @@ func (i *tableIter) Close() error {
 	return i.err
 }
 
-type filter struct {
+type filterReader struct {
 	data    []byte
 	offsets []byte // len(offsets) must be a multiple of 4.
 	policy  db.FilterPolicy
 	shift   uint32
 }
 
-func (f *filter) valid() bool {
+func (f *filterReader) valid() bool {
 	return f.data != nil
 }
 
-func (f *filter) init(data []byte, policy db.FilterPolicy) (ok bool) {
+func (f *filterReader) init(data []byte, policy db.FilterPolicy) (ok bool) {
 	if len(data) < 5 {
 		return false
 	}
@@ -276,7 +276,7 @@ func (f *filter) init(data []byte, policy db.FilterPolicy) (ok bool) {
 	return true
 }
 
-func (f *filter) mayContain(blockOffset uint64, key []byte) bool {
+func (f *filterReader) mayContain(blockOffset uint64, key []byte) bool {
 	index := blockOffset >> f.shift
 	if index >= uint64(len(f.offsets)/4-1) {
 		return true
@@ -296,7 +296,7 @@ type Reader struct {
 	err             error
 	index           block
 	comparer        db.Comparer
-	filter          filter
+	filter          filterReader
 	verifyChecksums bool
 	// TODO: add a (goroutine-safe) LRU block cache.
 }
@@ -330,7 +330,7 @@ func (r *Reader) Get(key []byte, o *db.ReadOptions) (value []byte, err error) {
 	if r.err != nil {
 		return nil, r.err
 	}
-	f := (*filter)(nil)
+	f := (*filterReader)(nil)
 	if r.filter.valid() {
 		f = &r.filter
 	}
@@ -362,7 +362,7 @@ func (r *Reader) Find(key []byte, o *db.ReadOptions) db.Iterator {
 	return r.find(key, o, nil)
 }
 
-func (r *Reader) find(key []byte, o *db.ReadOptions, f *filter) db.Iterator {
+func (r *Reader) find(key []byte, o *db.ReadOptions, f *filterReader) db.Iterator {
 	if r.err != nil {
 		return &tableIter{err: r.err}
 	}
diff --git a/table/table_test.go b/table/table_test.go
@@ -197,7 +197,7 @@ var (
 	tmpFileCount  int
 )
 
-func build(compression db.Compression) (db.File, error) {
+func build(compression db.Compression, fp db.FilterPolicy) (db.File, error) {
 	// Create a sorted list of wordCount's keys.
 	keys := make([]string, len(wordCount))
 	i := 0
@@ -216,7 +216,8 @@ func build(compression db.Compression) (db.File, error) {
 	defer f0.Close()
 	tmpFileCount++
 	w := NewWriter(f0, &db.Options{
-		Compression: compression,
+		Compression:  compression,
+		FilterPolicy: fp,
 	})
 	for _, k := range keys {
 		v := wordCount[k]
@@ -379,7 +380,7 @@ func (c *countingFilterPolicy) MayContain(filter, key []byte) bool {
 
 func TestWriter(t *testing.T) {
 	// Check that we can read a freshly made table.
-	f, err := build(db.DefaultCompression)
+	f, err := build(db.DefaultCompression, nil)
 	if err != nil {
 		t.Fatal(err)
 	}
@@ -389,31 +390,45 @@ func TestWriter(t *testing.T) {
 	}
 }
 
-func TestNoCompressionOutput(t *testing.T) {
+func testNoCompressionOutput(t *testing.T, fp db.FilterPolicy) {
+	filename := "../testdata/h.no-compression.ldb"
+	if fp != nil {
+		filename = "../testdata/h.bloom.no-compression.ldb"
+	}
+
 	// Check that a freshly made NoCompression table is byte-for-byte equal
 	// to a pre-made table.
-	a, err := ioutil.ReadFile(filepath.FromSlash("../testdata/h.no-compression.ldb"))
+	want, err := ioutil.ReadFile(filepath.FromSlash(filename))
 	if err != nil {
 		t.Fatal(err)
 	}
-	f, err := build(db.NoCompression)
+
+	f, err := build(db.NoCompression, fp)
 	if err != nil {
 		t.Fatal(err)
 	}
 	stat, err := f.Stat()
 	if err != nil {
 		t.Fatal(err)
 	}
-	b := make([]byte, stat.Size())
-	_, err = f.ReadAt(b, 0)
+	got := make([]byte, stat.Size())
+	_, err = f.ReadAt(got, 0)
 	if err != nil {
 		t.Fatal(err)
 	}
-	if !bytes.Equal(a, b) {
-		t.Fatal("built table does not match pre-made table")
+
+	if !bytes.Equal(got, want) {
+		i := 0
+		for ; i < len(got) && i < len(want) && got[i] == want[i]; i++ {
+		}
+		t.Fatalf("built table does not match pre-made table. From byte %d onwards,\ngot:\n% x\nwant:\n% x",
+			i, got[i:], want[i:])
 	}
 }
 
+func TestNoCompressionOutput(t *testing.T)      { testNoCompressionOutput(t, nil) }
+func TestBloomNoCompressionOutput(t *testing.T) { testNoCompressionOutput(t, bloom.FilterPolicy(10)) }
+
 func TestBlockIter(t *testing.T) {
 	// k is a block that maps three keys "apple", "apricot", "banana" to empty strings.
 	k := block([]byte("\x00\x05\x00apple\x02\x05\x00ricot\x00\x06\x00banana\x00\x00\x00\x00\x01\x00\x00\x00"))
diff --git a/table/writer.go b/table/writer.go
@@ -23,6 +23,97 @@ type indexEntry struct {
 	keyLen int
 }
 
+// filterBaseLog being 11 means that we generate a new filter for every 2KiB of
+// data.
+//
+// It's a little unfortunate that this is 11, whilst the default db.Options
+// BlockSize is 1<<12 or 4KiB, so that in practice, every second filter is
+// empty, but both values match the C++ code.
+const filterBaseLog = 11
+
+type filterWriter struct {
+	policy db.FilterPolicy
+	// block holds the keys for the current block. The buffers are re-used for
+	// each new block.
+	block struct {
+		data    []byte
+		lengths []int
+		keys    [][]byte
+	}
+	// data and offsets are the per-block filters for the overall table.
+	data    []byte
+	offsets []uint32
+}
+
+func (f *filterWriter) hasKeys() bool {
+	return len(f.block.lengths) != 0
+}
+
+func (f *filterWriter) appendKey(key []byte) {
+	f.block.data = append(f.block.data, key...)
+	f.block.lengths = append(f.block.lengths, len(key))
+}
+
+func (f *filterWriter) appendOffset() error {
+	o := len(f.data)
+	if uint64(o) > 1<<32-1 {
+		return errors.New("leveldb/table: filter data is too long")
+	}
+	f.offsets = append(f.offsets, uint32(o))
+	return nil
+}
+
+func (f *filterWriter) emit() error {
+	if err := f.appendOffset(); err != nil {
+		return err
+	}
+	if !f.hasKeys() {
+		return nil
+	}
+
+	i, j := 0, 0
+	for _, length := range f.block.lengths {
+		j += length
+		f.block.keys = append(f.block.keys, f.block.data[i:j])
+		i = j
+	}
+	f.data = append(f.data, f.policy.NewFilter(f.block.keys)...)
+
+	// Reset the per-block state.
+	f.block.data = f.block.data[:0]
+	f.block.lengths = f.block.lengths[:0]
+	f.block.keys = f.block.keys[:0]
+	return nil
+}
+
+func (f *filterWriter) finishBlock(blockOffset uint64) error {
+	for i := blockOffset >> filterBaseLog; i > uint64(len(f.offsets)); {
+		if err := f.emit(); err != nil {
+			return err
+		}
+	}
+	return nil
+}
+
+func (f *filterWriter) finish() ([]byte, error) {
+	if f.hasKeys() {
+		if err := f.emit(); err != nil {
+			return nil, err
+		}
+	}
+	if err := f.appendOffset(); err != nil {
+		return nil, err
+	}
+
+	var b [4]byte
+	for _, x := range f.offsets {
+		binary.LittleEndian.PutUint32(b[:], x)
+		f.data = append(f.data, b[0], b[1], b[2], b[3])
+	}
+	f.data = append(f.data, filterBaseLog)
+	return f.data, nil
+}
+
 // Writer is a table writer. It implements the DB interface, as documented
 // in the leveldb/db package.
 type Writer struct {
@@ -65,6 +156,8 @@ type Writer struct {
 	// re-used over the lifetime of the writer, avoiding the allocation of a
 	// temporary buffer for each block.
 	compressedBuf []byte
+	// filter accumulates the filter block.
+	filter filterWriter
 	// tmp is a scratch buffer, large enough to hold either footerLen bytes,
 	// blockTrailerLen bytes, or (5 * binary.MaxVarintLen64) bytes.
 	tmp [50]byte
@@ -103,6 +196,9 @@ func (w *Writer) Set(key, value []byte, o *db.WriteOptions) error {
 		w.err = fmt.Errorf("leveldb/table: Set called in non-increasing key order: %q, %q", w.prevKey, key)
 		return w.err
 	}
+	if w.filter.policy != nil {
+		w.filter.appendKey(key)
+	}
 	w.flushPendingBH(key)
 	w.append(key, value, w.nEntries%w.blockRestartInterval == 0)
 	// If the estimated block size is sufficiently large, finish the current block.
@@ -169,15 +265,32 @@ func (w *Writer) finishBlock() (blockHandle, error) {
 	// Compress the buffer, discarding the result if the improvement
 	// isn't at least 12.5%.
 	b := w.buf.Bytes()
-	w.tmp[0] = noCompressionBlockType
+	blockType := byte(noCompressionBlockType)
 	if w.compression == db.SnappyCompression {
 		compressed := snappy.Encode(w.compressedBuf, b)
 		w.compressedBuf = compressed[:cap(compressed)]
 		if len(compressed) < len(b)-len(b)/8 {
-			w.tmp[0] = snappyCompressionBlockType
+			blockType = snappyCompressionBlockType
 			b = compressed
 		}
 	}
+	bh, err := w.writeRawBlock(b, blockType)
+
+	// Calculate filters.
+	if w.filter.policy != nil {
+		w.filter.finishBlock(w.offset)
+	}
+
+	// Reset the per-block state.
+	w.buf.Reset()
+	w.nEntries = 0
+	w.restarts = w.restarts[:0]
+
+	return bh, err
+}
+
+func (w *Writer) writeRawBlock(b []byte, blockType byte) (blockHandle, error) {
+	w.tmp[0] = blockType
 
 	// Calculate the checksum.
 	checksum := crc.New(b).Update(w.tmp[:1]).Value()
@@ -192,11 +305,6 @@ func (w *Writer) finishBlock() (blockHandle, error) {
 	}
 	bh := blockHandle{w.offset, uint64(len(b))}
 	w.offset += uint64(len(b)) + blockTrailerLen
-
-	// Reset the per-block state.
-	w.buf.Reset()
-	w.nEntries = 0
-	w.restarts = w.restarts[:0]
 	return bh, nil
 }
 
@@ -229,16 +337,36 @@ func (w *Writer) Close() (err error) {
 		w.flushPendingBH(nil)
 	}
 
-	// Write the (empty) metaindex block.
+	// Writer.append uses w.tmp[:3*binary.MaxVarintLen64]. Let tmp be the other
+	// half of that slice.
+	tmp := w.tmp[3*binary.MaxVarintLen64 : 5*binary.MaxVarintLen64]
+
+	// Write the filter block.
+	if w.filter.policy != nil {
+		b, err := w.filter.finish()
+		if err != nil {
+			w.err = err
+			return w.err
+		}
+		bh, err := w.writeRawBlock(b, noCompressionBlockType)
+		if err != nil {
+			w.err = err
+			return w.err
+		}
+		n := encodeBlockHandle(tmp, bh)
+		w.append([]byte("filter."+w.filter.policy.Name()), tmp[:n], true)
+	}
+
+	// Write the metaindex block. It might be an empty block, if the filter
+	// policy is nil.
 	metaindexBlockHandle, err := w.finishBlock()
 	if err != nil {
 		w.err = err
 		return w.err
 	}
 
 	// Write the index block.
-	// writer.append uses w.tmp[:3*binary.MaxVarintLen64].
-	i0, tmp := 0, w.tmp[3*binary.MaxVarintLen64:5*binary.MaxVarintLen64]
+	i0 := 0
 	for _, ie := range w.indexEntries {
 		n := encodeBlockHandle(tmp, ie.bh)
 		i1 := i0 + ie.keyLen
@@ -280,15 +408,17 @@ func (w *Writer) Close() (err error) {
 // NewWriter returns a new table writer for the file. Closing the writer will
 // close the file.
 func NewWriter(f db.File, o *db.Options) *Writer {
-	// TODO: honor o.GetFilterPolicy().
 	w := &Writer{
 		closer:               f,
 		blockRestartInterval: o.GetBlockRestartInterval(),
 		blockSize:            o.GetBlockSize(),
 		cmp:                  o.GetComparer(),
 		compression:          o.GetCompression(),
-		prevKey:              make([]byte, 0, 256),
-		restarts:             make([]uint32, 0, 256),
+		filter: filterWriter{
+			policy: o.GetFilterPolicy(),
+		},
+		prevKey:  make([]byte, 0, 256),
+		restarts: make([]uint32, 0, 256),
 	}
 	if f == nil {
 		w.err = errors.New("leveldb/table: nil file")