From 53fdc1b40b5e0362a7ab473db56a9d646b51fdd3 Mon Sep 17 00:00:00 2001
From: piotrszul <piotr.szul@gmail.com>
Date: Wed, 10 Apr 2019 11:21:45 +1000
Subject: [PATCH] [#104] Implement regression tests (#109)

* Fixed the issue with boostrap sample, but using the actual sample indexes (with repeats) rather than the distinct set of indexes (#101)

* Tech/104/0.2 (#105)

* Added regression test cases generation scripts

* Added regression cases and unit test

* Moved execution of regression tests to 'regression-test' profile

* Enabled all regression test cases

* Update command line for regression tests

* Fixed chr22 regression cmd line

* Clean up: removed all splitting classes

* Refactored regression tests to use Parameterized

* Update the regression cases generation scripts
---
 .gitignore                                    |   1 +
 dev/test-gen-regression-cases.sh              |   4 +-
 .../algo/ClassificationSplitter.java          |   7 -
 .../algo/JClassificationSplitter.java         |  87 --------
 .../JConfusionClassificationSplitter.java     |  92 --------
 .../JContinousClassificationFastSplitter.java |  50 -----
 .../algo/JMaskedClassificationSplitter.java   |  68 ------
 .../split/JOrderedFastIndexedSplitter.java    |  10 +-
 .../algo/split/JOrderedIndexedSplitter.java   |  10 +-
 .../au/csiro/variantspark/algo/Split.scala    |  10 +
 .../regression/.CNAE-9-imp_category.csv.crc   | Bin 32 -> 0 bytes
 .../regression/.chr22-imp_22_16050408.csv.crc | Bin 36 -> 0 bytes
 ...nth_2000_500_fact_10_0.0-imp_cat10.csv.crc | Bin 32 -> 0 bytes
 ...ynth_2000_500_fact_10_0.0-imp_cat2.csv.crc | Bin 32 -> 0 bytes
 ...h_2000_500_fact_10_0.995-imp_cat10.csv.crc | Bin 32 -> 0 bytes
 ...th_2000_500_fact_10_0.995-imp_cat2.csv.crc | Bin 32 -> 0 bytes
 ...ynth_2000_500_fact_3_0.0-imp_cat10.csv.crc | Bin 32 -> 0 bytes
 ...synth_2000_500_fact_3_0.0-imp_cat2.csv.crc | Bin 32 -> 0 bytes
 ...th_2000_500_fact_3_0.995-imp_cat10.csv.crc | Bin 32 -> 0 bytes
 ...nth_2000_500_fact_3_0.995-imp_cat2.csv.crc | Bin 32 -> 0 bytes
 .../data/regression/chr22-imp_22_16050408.csv | 200 +++++++++---------
 .../algo/ClassificationSplitterTest.scala     |  83 --------
 .../algo/split/IndexedSplitterGiniTest.scala  |  90 ++++++++
 .../perf/ClassificationSplitterPerfTest.scala | 104 ---------
 .../ImportanceDatasetRegressionTest.scala     |  32 +++
 .../regression/ImportanceRegressionTest.scala | 104 ++-------
 .../ImportanceSynthRegressionTest.scala       |  43 ++++
 27 files changed, 313 insertions(+), 682 deletions(-)
 delete mode 100644 src/main/java/au/csiro/variantspark/algo/ClassificationSplitter.java
 delete mode 100644 src/main/java/au/csiro/variantspark/algo/JClassificationSplitter.java
 delete mode 100644 src/main/java/au/csiro/variantspark/algo/JConfusionClassificationSplitter.java
 delete mode 100644 src/main/java/au/csiro/variantspark/algo/JContinousClassificationFastSplitter.java
 delete mode 100644 src/main/java/au/csiro/variantspark/algo/JMaskedClassificationSplitter.java
 delete mode 100644 src/test/data/regression/.CNAE-9-imp_category.csv.crc
 delete mode 100644 src/test/data/regression/.chr22-imp_22_16050408.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat10.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat2.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat10.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat2.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat10.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat2.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat10.csv.crc
 delete mode 100644 src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat2.csv.crc
 delete mode 100644 src/test/scala/au/csiro/variantspark/algo/ClassificationSplitterTest.scala
 create mode 100644 src/test/scala/au/csiro/variantspark/algo/split/IndexedSplitterGiniTest.scala
 delete mode 100644 src/test/scala/au/csiro/variantspark/perf/ClassificationSplitterPerfTest.scala
 create mode 100644 src/test/scala/au/csiro/variantspark/test/regression/ImportanceDatasetRegressionTest.scala
 create mode 100644 src/test/scala/au/csiro/variantspark/test/regression/ImportanceSynthRegressionTest.scala

diff --git a/.gitignore b/.gitignore
index d905302c..3aa56429 100644
--- a/.gitignore
+++ b/.gitignore
@@ -58,3 +58,4 @@ build
 dist
 _build
 spark-warehouse
+.*.crc
diff --git a/dev/test-gen-regression-cases.sh b/dev/test-gen-regression-cases.sh
index be2eb385..85a35c88 100755
--- a/dev/test-gen-regression-cases.sh
+++ b/dev/test-gen-regression-cases.sh
@@ -32,7 +32,7 @@ PREFIX="CNAE-9"
 "${FWDIR}/bin/variant-spark" --spark --master local[2] -- importance -if "${DATA_DIR}/${PREFIX}-wide.csv" -ff "${DATA_DIR}/${PREFIX}-labels.csv" \
          -fc "${RESP}" \
          -on 100 -of "${OUTPUT_DIR}/${PREFIX}-imp_${RESP}.csv" \
-         -ivo 10 \
+         -io "{\"defVariableType\":\"ORDINAL(10)\"}" \
          -it csv -v -ro -rn 100 -rbs 50 -sp 4 -sr  17
 
 #
@@ -49,7 +49,7 @@ for CASE in ${FWDIR}/src/test/data/synth/*-meta.txt; do
 	"${FWDIR}/bin/variant-spark" --spark --master local[2] -- importance -if "${DATA_DIR}/${PREFIX}-wide.csv" -ff "${DATA_DIR}/${PREFIX}-labels.csv" \
 	 -fc "${RESP}" \
 	 -on 100 -of "${OUTPUT_DIR}/${PREFIX}-imp_${RESP}.csv" \
-	 -ivo ${IVO} \
+	 -io "{\"defVariableType\":\"ORDINAL(${IVO})\"}" \
  	 -it csv -v -ro -rn 100 -rbs 50 -sp 4 -sr 17
 	done
 done
diff --git a/src/main/java/au/csiro/variantspark/algo/ClassificationSplitter.java b/src/main/java/au/csiro/variantspark/algo/ClassificationSplitter.java
deleted file mode 100644
index 7eb1c91c..00000000
--- a/src/main/java/au/csiro/variantspark/algo/ClassificationSplitter.java
+++ /dev/null
@@ -1,7 +0,0 @@
-package au.csiro.variantspark.algo;
-
-public interface ClassificationSplitter {
-	SplitInfo findSplit(double[] data, int[] splitIndices);
-	SplitInfo findSplit(int[] data, int[] splitIndices);
-	SplitInfo findSplit(byte[] data, int[] splitIndices);
-}
diff --git a/src/main/java/au/csiro/variantspark/algo/JClassificationSplitter.java b/src/main/java/au/csiro/variantspark/algo/JClassificationSplitter.java
deleted file mode 100644
index 5dd7e0b5..00000000
--- a/src/main/java/au/csiro/variantspark/algo/JClassificationSplitter.java
+++ /dev/null
@@ -1,87 +0,0 @@
-package au.csiro.variantspark.algo;
-
-import java.util.Arrays;
-
-import au.csiro.variantspark.algo.impurity.FastGini;
-
-/**
- * Fast gini based splitter.
- * NOT MULITHREADED !!! (Caches state to avoid heap allocations)
- * 
- * @author szu004
- *
- */
-@SuppressWarnings("JavaDoc")
-public class JClassificationSplitter implements ClassificationSplitter {
-	private final int[] leftSplitCounts;
-	private final int[] rightSplitCounts;
-	private final double[] leftRightGini = new double[2];
-	private final int[] labels;
-	private final int nLevels;
-
-	/**
-	 * The outbounded version
-	 * @param labels
-	 * @param nCategories
-	 */
-	public JClassificationSplitter(int[] labels, int nCategories) {
-		this(labels, nCategories, Integer.MIN_VALUE);
-	}
-
-	public JClassificationSplitter(int[] labels, int nCategories, int nLevels) {
-		this.labels = labels;
-		this.leftSplitCounts = new int[nCategories];
-		this.rightSplitCounts = new int[nCategories];
-		this.nLevels = nLevels;
-	}
-
-	
-	@Override
-	public SplitInfo findSplit(double[] data,int[] splitIndices) {	
-	    SplitInfo result = null;
-	    double minGini = Double.MAX_VALUE;
-	    if (splitIndices.length < 2) {
-	    	return result;
-	    }
-	 
-	    int actualNLevels = (nLevels > 0) ?  nLevels : getLevelCount(data);
-	    
-		for(int sp = 0 ; sp < actualNLevels - 1; sp ++) {
-			Arrays.fill(leftSplitCounts, 0);
-			Arrays.fill(rightSplitCounts, 0);
-			for(int i:splitIndices) {
-				if ((int)data[i] <=sp) {
-					leftSplitCounts[labels[i]]++;
-				} else {
-					rightSplitCounts[labels[i]]++;					
-				}
-			}
-			double g = FastGini.splitGini(leftSplitCounts, rightSplitCounts, leftRightGini, true);
-			if (g < minGini ) {
-				result = new SplitInfo(sp, g, leftRightGini[0], leftRightGini[1]);
-				minGini = g;
-			}
-		}
-		return result;
-	 }
-
-	private int getLevelCount(double[] data) {
-		int maxLevel = 0;
-		for(double d:data) {
-			if ((int)d > maxLevel) {
-				maxLevel = (int)d;
-			}
-		}
-		return maxLevel+1;
-	}
-
-	@Override
-	public SplitInfo findSplit(int[] data, int[] splitIndices) {
-		throw new RuntimeException("Not implemented yet");
-	}
-
-	@Override
-	public SplitInfo findSplit(byte[] data, int[] splitIndices) {
-		throw new RuntimeException("Not implemented yet");
-	}
-}
diff --git a/src/main/java/au/csiro/variantspark/algo/JConfusionClassificationSplitter.java b/src/main/java/au/csiro/variantspark/algo/JConfusionClassificationSplitter.java
deleted file mode 100644
index dda267c0..00000000
--- a/src/main/java/au/csiro/variantspark/algo/JConfusionClassificationSplitter.java
+++ /dev/null
@@ -1,92 +0,0 @@
-package au.csiro.variantspark.algo;
-
-import java.util.Arrays;
-import java.util.function.BiConsumer;
-
-import au.csiro.variantspark.algo.impurity.FastGini;
-
-/**
- * Fast gini based splitter. NOT MULITHREADED !!!
- * Caches state to avoid heap allocations
- * 
- * @author szu004
- *
- */
-public class JConfusionClassificationSplitter implements ClassificationSplitter {
-	private final int[] leftSplitCounts;
-	private final int[] rightSplitCounts;
-	private final int[][] confusion;
-	private final double[] leftRightGini = new double[2];
-	private final int[] labels;
-	private final int nCategories;
-	private final int nLevels;
-
-	public JConfusionClassificationSplitter(int[] labels, int nCategories, int nLevels) {
-		this.labels = labels;
-		this.nCategories = nCategories;
-		this.nLevels = nLevels;
-		confusion = new int[nLevels][this.nCategories];
-		leftSplitCounts = new int[this.nCategories];
-		rightSplitCounts = new int[this.nCategories];
-	}
-
-	
-	@Override
-	public SplitInfo findSplit(double[] data, int[] splitIndices) {
-		return dofindSplit(splitIndices, (idx, conf) -> {
-			for (int i : idx) {
-				conf[(int) data[i]][labels[i]]++;
-			}
-		});
-	}
-
-	@Override
-	public SplitInfo findSplit(int[] data, int[] splitIndices) {
-		return dofindSplit(splitIndices, (idx, conf) -> {
-			for (int i : idx) {
-				conf[data[i]][labels[i]]++;
-			}
-		});
-	}
-
-	@Override
-	public SplitInfo findSplit(byte[] data, int[] splitIndices) {
-		return dofindSplit(splitIndices, (idx, conf) -> {
-			for (int i : idx) {
-				conf[(int) data[i]][labels[i]]++;
-			}
-		});
-	}
-	
-	private <T> SplitInfo dofindSplit(int[] splitIndices, BiConsumer<int[], int[][]> confusionCalc) {
-		SplitInfo result = null;
-		double minGini = Double.MAX_VALUE;
-
-		if (splitIndices.length < 2) {
-	    	return result;
-	    }
-
-		for (int[] aConfusion : confusion) {
-			Arrays.fill(aConfusion, 0);
-		}
-
-		confusionCalc.accept(splitIndices, confusion);
-
-		Arrays.fill(leftSplitCounts, 0);
-		Arrays.fill(rightSplitCounts, 0);
-		for (int[] l : confusion) {
-			ArrayOps.addEq(rightSplitCounts, l);
-		}
-
-		for (int sp = 0; sp < nLevels - 1; sp++) {
-			ArrayOps.addEq(leftSplitCounts, confusion[sp]);
-			ArrayOps.subEq(rightSplitCounts, confusion[sp]);
-			double g = FastGini.splitGini(leftSplitCounts, rightSplitCounts, leftRightGini, true);
-			if (g < minGini) {
-				result = new SplitInfo(sp, g, leftRightGini[0], leftRightGini[1]);
-				minGini = g;
-			}
-		}
-		return result;
-	}
-}
diff --git a/src/main/java/au/csiro/variantspark/algo/JContinousClassificationFastSplitter.java b/src/main/java/au/csiro/variantspark/algo/JContinousClassificationFastSplitter.java
deleted file mode 100644
index 00c13f94..00000000
--- a/src/main/java/au/csiro/variantspark/algo/JContinousClassificationFastSplitter.java
+++ /dev/null
@@ -1,50 +0,0 @@
-package au.csiro.variantspark.algo;
-
-import java.util.Arrays;
-
-import it.unimi.dsi.fastutil.doubles.DoubleArrays;
-
-
-/**
- * @author szu004
- * This is a naive implementation of precise (not binning) continous variable splitter
- */
-public class JContinousClassificationFastSplitter implements ClassificationSplitter  {
-
-	private final int[] labels;
-	private final int noLabels;
-	
-	public JContinousClassificationFastSplitter(int[] labels, int noLabels) {
-		this.labels = labels;
-		this.noLabels = noLabels;
-	}
-	
-	@Override
-	public SplitInfo findSplit(final double[] data, int[] splitIndices) {		
-		if (splitIndices.length < 2) {
-			// nothing to split
-			return null;
-		}		
-		// create a dense rank for the data
-		// TODO: This needs to be move outside
-		int[] denseRank = new int[data.length];
-		double rankValues[] = ArrayOps.denseRank(data, denseRank);
-		JConfusionClassificationSplitter splitter = new JConfusionClassificationSplitter(this.labels, this.noLabels, rankValues.length);
-		SplitInfo split = splitter.findSplit(denseRank, splitIndices);
-		// now need to convert the rank to the actual value
-		return split == null ? split: new SplitInfo(rankValues[(int)split.splitPoint()], split.gini(), split.leftGini(), split.rightGini());
-	
-	}
-
-	@Override
-	public SplitInfo findSplit(int[] data, int[] splitIndices) {
-		throw new UnsupportedOperationException("JContinousClassificationSplitter.findSplit(int[] ...");
-	
-	}
-
-	@Override
-	public SplitInfo findSplit(byte[] data, int[] splitIndices) {
-		throw new UnsupportedOperationException("JContinousClassificationSplitter.findSplit(byte[] ...");
-	}
-
-}
diff --git a/src/main/java/au/csiro/variantspark/algo/JMaskedClassificationSplitter.java b/src/main/java/au/csiro/variantspark/algo/JMaskedClassificationSplitter.java
deleted file mode 100644
index 238689d7..00000000
--- a/src/main/java/au/csiro/variantspark/algo/JMaskedClassificationSplitter.java
+++ /dev/null
@@ -1,68 +0,0 @@
-package au.csiro.variantspark.algo;
-
-import java.util.Arrays;
-
-import au.csiro.variantspark.algo.impurity.FastGini;
-
-
-/**
- * Fast gini based splitter.
- * NOT MULITHREADED !!! (Caches state to avoid heap allocations)
- * 
- * @author szu004
- *
- */
-public class JMaskedClassificationSplitter {
-	private final int[] leftSplitCounts;
-	private final int[] rightSplitCounts;
-	private final double[] leftRightGini = new double[2];
-	private final int[] labels;
-		
-	public JMaskedClassificationSplitter(int[] labels, int nCategories) {
-		this.labels = labels;
-		this.leftSplitCounts = new int[nCategories];
-		this.rightSplitCounts = new int[nCategories];
-	}
-		 
-	 public SplitInfo findSplit(double[] data,int[] splitIndices) {	
-	    SplitInfo result = null;
-	    double minGini = 1.0;
-
-	    /* TODO (review and test implementation)
-         * on the first pass we calculate the splits
-         * AND determine which split points are in this dataset
-	     * because 0 is most likely we will do 0 as the initial pass */
-	    long splitCandidateSet = 0L; 
-		for(int i:splitIndices) {
-			splitCandidateSet|=(1 << (int)data[i]);
-		}
-		
-		int sp  = 0;
-		while(splitCandidateSet != 0L) {
-			while (splitCandidateSet != 0L && (splitCandidateSet & 1) == 0) {
-				sp ++;
-				splitCandidateSet >>= 1;
-			}
-			splitCandidateSet >>= 1;
-			
-			if (splitCandidateSet != 0L) {
-				Arrays.fill(leftSplitCounts, 0);
-				Arrays.fill(rightSplitCounts, 0);
-				for(int i:splitIndices) {
-					if ((int)data[i] <=sp) {
-						leftSplitCounts[labels[i]]++;
-					} else {
-						rightSplitCounts[labels[i]]++;					
-					}
-				}
-				double g = FastGini.splitGini(leftSplitCounts, rightSplitCounts, leftRightGini);
-				if (g < minGini ) {
-					result = new SplitInfo(sp, g, leftRightGini[0], leftRightGini[1]);
-					minGini = g;
-				}
-				sp++;
-			}
-		}
-		return result;
-	 }
-}
diff --git a/src/main/java/au/csiro/variantspark/algo/split/JOrderedFastIndexedSplitter.java b/src/main/java/au/csiro/variantspark/algo/split/JOrderedFastIndexedSplitter.java
index b5760596..ac719f3e 100644
--- a/src/main/java/au/csiro/variantspark/algo/split/JOrderedFastIndexedSplitter.java
+++ b/src/main/java/au/csiro/variantspark/algo/split/JOrderedFastIndexedSplitter.java
@@ -46,10 +46,12 @@ protected SplitInfo doFindSplit(int[] splitIndices) {
 			if (!thisAggregator.isEmpty()) {
 				// only consider value that appeared at least once in the split
 				impurityCalc.update(thisAggregator);
-				double thisImpurity = impurityCalc.getValue(leftRightImpurity);
-				if (thisImpurity < minImpurity) {
-					result = new SplitInfo(sp, thisImpurity, leftRightImpurity.left(), leftRightImpurity.right());
-					minImpurity = thisImpurity;
+				if (impurityCalc.hasProperSplit()) {
+					double thisImpurity = impurityCalc.getValue(leftRightImpurity);
+					if (thisImpurity < minImpurity) {
+						result = new SplitInfo(sp, thisImpurity, leftRightImpurity.left(), leftRightImpurity.right());
+						minImpurity = thisImpurity;
+					}
 				}
 			}
 		}
diff --git a/src/main/java/au/csiro/variantspark/algo/split/JOrderedIndexedSplitter.java b/src/main/java/au/csiro/variantspark/algo/split/JOrderedIndexedSplitter.java
index 835628fa..4639ae87 100644
--- a/src/main/java/au/csiro/variantspark/algo/split/JOrderedIndexedSplitter.java
+++ b/src/main/java/au/csiro/variantspark/algo/split/JOrderedIndexedSplitter.java
@@ -49,10 +49,12 @@ public SplitInfo doFindSplit(int[] splitIndices) {
 					impurityCalc.update(i);
 				} 
 			}
-			double g = impurityCalc.getValue(leftRightImpurity);
-			if (g < minImpurity ) {
-				result = new SplitInfo(sp, g, leftRightImpurity.left(), leftRightImpurity.right());
-				minImpurity = g;
+			if (impurityCalc.hasProperSplit()) {
+				double g = impurityCalc.getValue(leftRightImpurity);
+				if (g < minImpurity ) {
+					result = new SplitInfo(sp, g, leftRightImpurity.left(), leftRightImpurity.right());
+					minImpurity = g;
+				}
 			}
 		}
 		return result;	
diff --git a/src/main/scala/au/csiro/variantspark/algo/Split.scala b/src/main/scala/au/csiro/variantspark/algo/Split.scala
index aabfb268..0e0cb682 100644
--- a/src/main/scala/au/csiro/variantspark/algo/Split.scala
+++ b/src/main/scala/au/csiro/variantspark/algo/Split.scala
@@ -28,6 +28,16 @@ trait IndexedSplitAggregator {
 	  left.add(agg)
 	  right.sub(agg)	  
 	}
+	
+	/** 
+	 *  Is this a valid split that is one that does not put 
+	 *  all elements to one side
+	 */
+	def hasProperSplit:Boolean = !left.isEmpty() && !right.isEmpty()
+	
+	/**
+	 * Get split impurity value
+	 */
 	def getValue(outSplitImp:SplitImpurity):Double = {
 	  left.splitValue(right, outSplitImp)
 	}
diff --git a/src/test/data/regression/.CNAE-9-imp_category.csv.crc b/src/test/data/regression/.CNAE-9-imp_category.csv.crc
deleted file mode 100644
index c0577b43b4edc799d0693360ca3bb16b4c106d13..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}9*@>0i3WFF$u>*P^*jZgmzr^Ac~|>3KC10KY;GEdT%j

diff --git a/src/test/data/regression/.chr22-imp_22_16050408.csv.crc b/src/test/data/regression/.chr22-imp_22_16050408.csv.crc
deleted file mode 100644
index 0a7a8b26406f1c971bae8643e9e7cccd937a6050..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 36
scmYc;N@ieSU}CV`aD0))wfgtR8dwFIbhqtV;#Xr-DI&?nIbC-<0PzeBQvd(}

diff --git a/src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat10.csv.crc b/src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat10.csv.crc
deleted file mode 100644
index 296190d39f4d74ea60d813aa85799c80cd153c62..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}Ctd9hwqk;rdto*2(RMGIO2?wY^fgHOrs{0K7yEk^lez

diff --git a/src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat2.csv.crc b/src/test/data/regression/.synth_2000_500_fact_10_0.0-imp_cat2.csv.crc
deleted file mode 100644
index 26c1610c7161d15962e4c42cf2e3a61745d458aa..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}E5z|Cl?bE&bJuU6;T38HswW@Cpvyp`^SN0JeAxI{*Lx

diff --git a/src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat10.csv.crc b/src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat10.csv.crc
deleted file mode 100644
index f1b3523bdf47a9e9ae7fd2c9f14d9ca4cd77bc11..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
qcmV+*0N?*(a$^7h00IE!<H#ed#<t0@=gy&pR7=AA7Or)^+rFakcM$pj

diff --git a/src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat2.csv.crc b/src/test/data/regression/.synth_2000_500_fact_10_0.995-imp_cat2.csv.crc
deleted file mode 100644
index e0ebf48fa044e14dde62266ff9c7e0a775574968..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}A{OWcVq3?iA;C%@n;En{K|hOZ)O`Emz)B0JPQ(iU0rr

diff --git a/src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat10.csv.crc b/src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat10.csv.crc
deleted file mode 100644
index 62ac1642e2cd1e082860807f09be01488b93a204..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}Bi{Pv{Aw$F=k3ecc7qwAU_?KlZxy^Zd7e0mnrTS^xk5

diff --git a/src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat2.csv.crc b/src/test/data/regression/.synth_2000_500_fact_3_0.0-imp_cat2.csv.crc
deleted file mode 100644
index 990de8530b8bda17bd1b178ee2fa242e7de551c0..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}AXj#g9dZEmEv(-iMA&JZ!J$NABIc!;tF}0IW0&cmMzZ

diff --git a/src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat10.csv.crc b/src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat10.csv.crc
deleted file mode 100644
index 07f3731b1f434085858df379e132e2ac2e0d3e66..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}CtR{`SYiV&e}nZq+B(Yw7HKHG2WG-O~5Z0o<w&VgLXD

diff --git a/src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat2.csv.crc b/src/test/data/regression/.synth_2000_500_fact_3_0.995-imp_cat2.csv.crc
deleted file mode 100644
index 98e823e514b82143b1a98abcf9bf1e02de311917..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 32
ocmYc;N@ieSU}891VQ#zg!IQqP{PDZzEj5@{%h9+o<J6KS0Lx1bH2?qr

diff --git a/src/test/data/regression/chr22-imp_22_16050408.csv b/src/test/data/regression/chr22-imp_22_16050408.csv
index 174e5481..07c821b1 100644
--- a/src/test/data/regression/chr22-imp_22_16050408.csv
+++ b/src/test/data/regression/chr22-imp_22_16050408.csv
@@ -1,101 +1,101 @@
 variable,importance
-22_16050678,9.307262777275175E-4
-22_16050408,8.569438916510284E-4
-22_16053197,5.905397449656748E-4
-22_16052656,5.529140813153089E-4
-22_16052838,5.405729303961195E-4
-22_16053509,5.381926619727878E-4
-22_16051882,5.299466721709048E-4
-22_16053797,5.18900964891074E-4
-22_16051107,4.8707878710368437E-4
-22_16053435,4.3895552894114977E-4
-22_16051480,4.2061545897084527E-4
-22_16053881,3.3403696067441877E-4
-22_16053727,2.724873953547113E-4
-22_16050612,1.8186715098422726E-4
-22_16052250,1.3715007961548976E-4
-22_16054283,1.3524790708334348E-4
-22_17734760,3.66227664184317E-5
-22_16053001,2.807036873960552E-5
-22_17784700,2.3373284950603343E-5
-22_17784719,2.2865204822291962E-5
-22_16052080,2.0841967770041462E-5
-22_17786438,1.730104031952808E-5
-22_17738321,1.6826418639983283E-5
-22_16054007,1.4535945766654895E-5
-22_17785181,1.3972778024421707E-5
-22_17768522,1.3427163525719838E-5
-22_17787862,1.3291600185772885E-5
-22_17786830,1.3287874594281339E-5
-22_17780913,1.1912490619873835E-5
-22_17752414,1.1904061594783662E-5
-22_17787823,1.1132863819984468E-5
-22_17775463,1.079439024673416E-5
-22_17782640,1.0295608386115384E-5
-22_17781962,1.0237145205958033E-5
-22_17765143,1.0217981388582057E-5
-22_17695507,1.0190665174695165E-5
-22_17785383,9.876484582669567E-6
-22_17719458,9.8355188198386E-6
-22_17678667,9.81076323591416E-6
-22_17788576,9.576983108960682E-6
-22_17784913,9.552382814702338E-6
-22_17692064,9.459357609473476E-6
-22_17789662,9.172468410807515E-6
-22_17730885,8.956616474039106E-6
-22_17727109,8.69852118504201E-6
-22_17788549,8.607597685921162E-6
-22_17780289,8.531470924927214E-6
-22_17725406,8.510935739880075E-6
-22_17710708,8.296019291518227E-6
-22_17734704,8.257267941184601E-6
-22_17796921,8.157292967693431E-6
-22_17744553,7.987287594803402E-6
-22_16052239,7.926504420350273E-6
-22_17783600,7.914948675754761E-6
-22_17739646,7.651310974843265E-6
-22_17723841,7.575262873219934E-6
-22_17677699,7.558703308290173E-6
-22_17788200,7.5162488603555445E-6
-22_17796925,7.512402645607944E-6
-22_17675983,7.279564069109431E-6
-22_17776876,7.267911501129571E-6
-22_17788597,7.241156575373534E-6
-22_17676336,7.1669997232411555E-6
-22_17743563,7.122619082451405E-6
-22_17739036,7.10749201197262E-6
-22_17723513,7.094021709327163E-6
-22_16053791,6.9452126947682315E-6
-22_17768799,6.941845612422755E-6
-22_17784380,6.935031463935379E-6
-22_17734516,6.888261519435394E-6
-22_17764048,6.8776549834044244E-6
-22_17727125,6.811682191425918E-6
-22_17722982,6.711905281448667E-6
-22_17734960,6.705438485516189E-6
-22_17782813,6.701783806783884E-6
-22_17720722,6.66479081341454E-6
-22_16051347,6.651248311170275E-6
-22_17781035,6.64173919783775E-6
-22_17743228,6.616109092074873E-6
-22_17766115,6.448879648612043E-6
-22_16053659,6.446921351481894E-6
-22_17681562,6.440754910635584E-6
-22_17676418,6.414217403651832E-6
-22_17681183,6.38359349831856E-6
-22_17774450,6.36092858457954E-6
-22_17796926,6.345235194748791E-6
-22_17723174,6.332018172567254E-6
-22_17757629,6.331733792833525E-6
-22_17716874,6.328488860027883E-6
-22_17695762,6.2501540153453875E-6
-22_17722024,6.239220516635328E-6
-22_17704846,6.233684613337373E-6
-22_17788788,6.232553872398778E-6
-22_17782456,6.18263264820247E-6
-22_17687954,6.182100078573345E-6
-22_17774572,6.105693679334155E-6
-22_17680723,6.0786848056237514E-6
-22_17691166,6.060410643040275E-6
-22_17692507,6.0340543398541735E-6
-22_17707727,6.0306915626107355E-6
+22_16050678_C_T,9.307262777275175E-4
+22_16050408_T_C,8.569438916510284E-4
+22_16053197_G_T,5.905397449656748E-4
+22_16052656_T_C,5.529140813153089E-4
+22_16052838_T_A,5.405729303961195E-4
+22_16053509_A_G,5.381926619727878E-4
+22_16051882_C_T,5.299466721709048E-4
+22_16053797_T_C,5.18900964891074E-4
+22_16051107_C_A,4.8707878710368437E-4
+22_16053435_G_T,4.3895552894114977E-4
+22_16051480_T_C,4.2061545897084527E-4
+22_16053881_A_C,3.3403696067441877E-4
+22_16053727_T_G,2.724873953547113E-4
+22_16050612_C_G,1.8186715098422726E-4
+22_16052250_A_G,1.3715007961548976E-4
+22_16054283_C_T,1.3524790708334348E-4
+22_17734760_G_A,3.66227664184317E-5
+22_16053001_A_T,2.807036873960552E-5
+22_17784700_A_G,2.3373284950603343E-5
+22_17784719_C_T,2.2865204822291962E-5
+22_16052080_G_A,2.0841967770041462E-5
+22_17786438_A_G,1.730104031952808E-5
+22_17738321_G_A,1.6826418639983283E-5
+22_16054007_C_T,1.4535945766654895E-5
+22_17785181_G_A,1.3972778024421707E-5
+22_17768522_G_A,1.3427163525719838E-5
+22_17787862_A_T,1.3291600185772885E-5
+22_17786830_A_T,1.3287874594281339E-5
+22_17780913_T_C,1.1912490619873835E-5
+22_17752414_G_A,1.1904061594783662E-5
+22_17787823_A_G,1.1132863819984468E-5
+22_17775463_T_G,1.079439024673416E-5
+22_17782640_C_T,1.0295608386115384E-5
+22_17781962_G_A,1.0237145205958033E-5
+22_17765143_C_G,1.0217981388582057E-5
+22_17695507_C_T,1.0190665174695165E-5
+22_17785383_C_T,9.876484582669567E-6
+22_17719458_T_C,9.8355188198386E-6
+22_17678667_G_A,9.81076323591416E-6
+22_17788576_T_C,9.576983108960682E-6
+22_17784913_G_T,9.552382814702338E-6
+22_17692064_A_G,9.459357609473476E-6
+22_17789662_C_T,9.172468410807515E-6
+22_17730885_C_T,8.956616474039106E-6
+22_17727109_C_T,8.69852118504201E-6
+22_17788549_G_A,8.607597685921162E-6
+22_17780289_C_T,8.531470924927214E-6
+22_17725406_G_A,8.510935739880075E-6
+22_17710708_C_T,8.296019291518227E-6
+22_17734704_A_G,8.257267941184601E-6
+22_17796921_T_TTAAC,8.157292967693431E-6
+22_17744553_T_C,7.987287594803402E-6
+22_16052239_A_G,7.926504420350273E-6
+22_17783600_A_G,7.914948675754761E-6
+22_17739646_T_C,7.651310974843265E-6
+22_17723841_T_G,7.575262873219934E-6
+22_17677699_C_T,7.558703308290173E-6
+22_17788200_C_A,7.5162488603555445E-6
+22_17796925_C_CTAAT,7.512402645607944E-6
+22_17675983_A_G,7.279564069109431E-6
+22_17776876_C_T,7.267911501129571E-6
+22_17788597_C_T,7.241156575373534E-6
+22_17676336_T_C,7.1669997232411555E-6
+22_17743563_T_C,7.122619082451405E-6
+22_17739036_G_C,7.10749201197262E-6
+22_17723513_G_A,7.094021709327163E-6
+22_16053791_C_A,6.9452126947682315E-6
+22_17768799_C_T,6.941845612422755E-6
+22_17784380_C_A,6.935031463935379E-6
+22_17734516_C_T,6.888261519435394E-6
+22_17764048_G_A,6.8776549834044244E-6
+22_17727125_A_G,6.811682191425918E-6
+22_17722982_G_T,6.711905281448667E-6
+22_17734960_C_T,6.705438485516189E-6
+22_17782813_C_T,6.701783806783884E-6
+22_17720722_A_G,6.66479081341454E-6
+22_16051347_G_C,6.651248311170275E-6
+22_17781035_G_A,6.64173919783775E-6
+22_17743228_T_A,6.616109092074873E-6
+22_17766115_T_C,6.448879648612043E-6
+22_16053659_A_C,6.446921351481894E-6
+22_17681562_A_G,6.440754910635584E-6
+22_17676418_C_CA,6.414217403651832E-6
+22_17681183_C_G,6.38359349831856E-6
+22_17774450_T_C,6.36092858457954E-6
+22_17796926_T_TA,6.345235194748791E-6
+22_17723174_C_G,6.332018172567254E-6
+22_17757629_A_T,6.331733792833525E-6
+22_17716874_A_AAGAGATGC,6.328488860027883E-6
+22_17695762_A_G,6.2501540153453875E-6
+22_17722024_G_A,6.239220516635328E-6
+22_17704846_A_C,6.233684613337373E-6
+22_17788788_A_C,6.232553872398778E-6
+22_17782456_G_C,6.18263264820247E-6
+22_17687954_T_C,6.182100078573345E-6
+22_17774572_A_C,6.105693679334155E-6
+22_17680723_CTTTG_C,6.0786848056237514E-6
+22_17691166_C_T,6.060410643040275E-6
+22_17692507_T_A,6.0340543398541735E-6
+22_17707727_G_A,6.0306915626107355E-6
diff --git a/src/test/scala/au/csiro/variantspark/algo/ClassificationSplitterTest.scala b/src/test/scala/au/csiro/variantspark/algo/ClassificationSplitterTest.scala
deleted file mode 100644
index a48267c9..00000000
--- a/src/test/scala/au/csiro/variantspark/algo/ClassificationSplitterTest.scala
+++ /dev/null
@@ -1,83 +0,0 @@
-package au.csiro.variantspark.algo
-
-
-import au.csiro.pbdava.ssparkle.common.utils.Logging
-import org.apache.spark.mllib.linalg.Vectors
-import org.junit.Assert._
-import org.junit.Test
-
-abstract class ClassificationSplitterTest extends Logging {
-
-  def splitter(labels: Array[Int], nLabels: Int = 2): ClassificationSplitter
-
-  @Test
-  def testEmptySplit() {
-    val splitInfo = splitter(Array(1)).findSplit(Vectors.dense(0.0).toArray, Array[Int]())
-    assertNull(splitInfo)
-  }
-
-  @Test
-  def testOneElementSplit() {
-    val splitInfo = splitter(Array(1)).findSplit(Vectors.dense(0.0).toArray, Array(0))
-    assertNull(splitInfo)
-  }
-
-
-  @Test
-  def testConstantsLabelSplit() {
-    val splitInfo = splitter(Array(1, 1, 1, 1)).findSplit(Vectors.dense(0.0, 1.0, 2.0, 3.0).toArray, Range(0, 4).toArray)
-    assertEquals(SplitInfo(0, 0.0, 0.0, 0.0), splitInfo)
-  }
-
-  @Test
-  def testConstantsValuesSplit() {
-    val splitInfo = splitter(Array(0, 1, 0, 1)).findSplit(Vectors.dense(1.0, 1.0, 1.0, 1.0).toArray, Range(0, 4).toArray)
-    assertNull(splitInfo)
-  }
-
-
-  @Test
-  def testActualSplit() {
-    val splitInfo = splitter(Array(0, 1, 0, 1)).findSplit(Vectors.dense(0.0, 2.0, 1.0, 2.0).toArray, Range(0, 4).toArray)
-    assertEquals(SplitInfo(1, 0.0, 0.0, 0.0), splitInfo)
-  }
-
-
-  @Test
-  def testActualSplitWithSubset() {
-    val splitInfo = splitter(Array(0, 1, 0, 1, 0, 0)).findSplit(Vectors.dense(0.0, 2.0, 1.0, 2.0, 2.0, 2.0).toArray, Range(0, 4).toArray)
-    assertEquals(SplitInfo(1, 0.0, 0.0, 0.0), splitInfo)
-  }
-
-
-  @Test
-  def testGiniWithComplexSplit() {
-    val splitInfo = splitter(Array(0, 1, 0, 0, 1, 1, 0)).findSplit(Vectors.dense(0.0, 0.0, 1.0, 1.0, 2.0, 3.0, 3.0).toArray, Range(0, 7).toArray)
-    val rightGini = 1.0 - (0.25 * 0.25 + 0.75 * 0.75)
-    val leftGini = 1 - 5.0 / 9.0 // 1 - (1/3^ + 2/3^2)
-    assertEquals(SplitInfo(1, (4.0 * rightGini + 3.0 * leftGini) / 7.0, rightGini, leftGini), splitInfo)
-  }
-
-}
-
-class JClassificationSplitterTest extends ClassificationSplitterTest {
-  def splitter(labels: Array[Int], nLabels: Int = 2) = new JClassificationSplitter(labels, nLabels, 4)
-}
-
-
-class JClassificationSplitterUnboundedTest extends ClassificationSplitterTest {
-  def splitter(labels: Array[Int], nLabels: Int = 2) = new JClassificationSplitter(labels, nLabels)
-}
-
-class JConfusionClassificationSplitterTest extends ClassificationSplitterTest {
-  def splitter(labels: Array[Int], nLabels: Int = 2) = new JConfusionClassificationSplitter(labels, nLabels, 4)
-}
-
-class JContinousClassificationFastSplitterTest extends ClassificationSplitterTest {
-  def splitter(labels: Array[Int], nLabels: Int = 2) = new JContinousClassificationFastSplitter(labels, nLabels)
-}
-
-
-
-
-
diff --git a/src/test/scala/au/csiro/variantspark/algo/split/IndexedSplitterGiniTest.scala b/src/test/scala/au/csiro/variantspark/algo/split/IndexedSplitterGiniTest.scala
new file mode 100644
index 00000000..9ccb9d83
--- /dev/null
+++ b/src/test/scala/au/csiro/variantspark/algo/split/IndexedSplitterGiniTest.scala
@@ -0,0 +1,90 @@
+package au.csiro.variantspark.algo.split
+
+
+import au.csiro.pbdava.ssparkle.common.utils.Logging
+import org.junit.Assert._
+import org.junit.Test
+import au.csiro.variantspark.algo.IndexedSplitter
+import au.csiro.variantspark.algo.SplitInfo
+import au.csiro.variantspark.algo.IndexedSplitAggregator
+import au.csiro.variantspark.algo.GiniImpurity
+import au.csiro.variantspark.algo.ClassificationSplitAggregator
+import au.csiro.variantspark.algo.ConfusionAggregator
+
+abstract class IndexedSplitterGiniTest {
+
+  def splitterFromAgg(agg:IndexedSplitAggregator, confAgg: ConfusionAggregator, data:Array[Double]): IndexedSplitter
+  def splitter(data:Array[Double], labels: Array[Int], nLabels: Int = 2): IndexedSplitter = {
+    
+    val confusionAgg = new ConfusionAggregator(GiniImpurity, 10, nLabels, labels)
+    splitterFromAgg(ClassificationSplitAggregator(GiniImpurity, labels, nLabels), confusionAgg,  data)
+  }
+
+  @Test
+  def testEmptySplit() {
+    val splitInfo = splitter(Array(0.0), Array(1)).findSplit(Array[Int]())
+    assertNull(splitInfo)
+  }
+
+  @Test
+  def testOneElementSplit() {
+    val splitInfo = splitter(Array(0.0), Array(1)).findSplit(Array(0))
+    assertNull(splitInfo)
+  }
+
+
+  @Test
+  def testConstantsLabelSplit() {
+    val splitInfo = splitter(Array(0.0, 1.0, 2.0, 3.0), Array(1, 1, 1, 1)).findSplit(Range(0, 4).toArray)
+    assertEquals(SplitInfo(0, 0.0, 0.0, 0.0), splitInfo)
+  }
+
+  @Test
+  def testConstantsValuesSplit() {
+    val splitInfo = splitter(Array(1.0, 1.0, 1.0, 1.0), Array(0, 1, 0, 1)).findSplit(Range(0, 4).toArray)
+    assertNull(splitInfo)
+  }
+
+
+  @Test
+  def testActualSplit() {
+    val splitInfo = splitter(Array(0.0, 2.0, 1.0, 2.0), Array(0, 1, 0, 1)).findSplit(Range(0, 4).toArray)
+    assertEquals(SplitInfo(1, 0.0, 0.0, 0.0), splitInfo)
+  }
+
+
+  @Test
+  def testActualSplitWithSubset() {
+    val splitInfo = splitter(Array(0.0, 2.0, 1.0, 2.0, 2.0, 2.0), Array(0, 1, 0, 1, 0, 0)).findSplit(Range(0, 4).toArray)
+    assertEquals(SplitInfo(1, 0.0, 0.0, 0.0), splitInfo)
+  }
+
+
+  @Test
+  def testGiniWithComplexSplit() {
+    val splitInfo = splitter(Array(0.0, 0.0, 1.0, 1.0, 2.0, 3.0, 3.0), Array(0, 1, 0, 0, 1, 1, 0)).findSplit(Range(0, 7).toArray)
+    val rightGini = 1.0 - (0.25 * 0.25 + 0.75 * 0.75)
+    val leftGini = 1 - 5.0 / 9.0 // 1 - (1/3^ + 2/3^2)
+    assertEquals(SplitInfo(1, (4.0 * rightGini + 3.0 * leftGini) / 7.0, rightGini, leftGini), splitInfo)
+  }
+}
+
+class JNaiveContinousIndexedSplitterTest extends IndexedSplitterGiniTest {
+  override def splitterFromAgg(agg:IndexedSplitAggregator, confAgg: ConfusionAggregator, data:Array[Double]): IndexedSplitter = new JNaiveContinousIndexedSplitter(agg, data)  
+}
+
+class JOrderedIndexedSplitterTest extends IndexedSplitterGiniTest {
+  override def splitterFromAgg(agg:IndexedSplitAggregator, confAgg: ConfusionAggregator, data:Array[Double]): IndexedSplitter = new JOrderedIndexedSplitter(agg, data.map(_.toByte) ,4)  
+}
+
+class JOrderedFastIndexedSplitterTest extends IndexedSplitterGiniTest {
+  override def splitterFromAgg(agg:IndexedSplitAggregator, confAgg: ConfusionAggregator, data:Array[Double]): IndexedSplitter = new JOrderedFastIndexedSplitter(confAgg, agg, data.map(_.toByte) ,4)  
+}
+
+
+
+
+
+
+
+
diff --git a/src/test/scala/au/csiro/variantspark/perf/ClassificationSplitterPerfTest.scala b/src/test/scala/au/csiro/variantspark/perf/ClassificationSplitterPerfTest.scala
deleted file mode 100644
index a46afad8..00000000
--- a/src/test/scala/au/csiro/variantspark/perf/ClassificationSplitterPerfTest.scala
+++ /dev/null
@@ -1,104 +0,0 @@
-package au.csiro.variantspark.perf
-
-import au.csiro.pbdava.ssparkle.common.utils.Timed
-import au.csiro.variantspark.algo.{JClassificationSplitter, JConfusionClassificationSplitter}
-import it.unimi.dsi.util.XorShift1024StarRandomGenerator
-import org.junit.Test
-
-class ClassificationSplitterPerfTest {
-
-  @Test
-  def testJSingleSplitter() {
-
-    val rg = new XorShift1024StarRandomGenerator(13)
-    val nLabels = 10000
-    val labels = Array.fill(nLabels)(Math.abs(rg.nextInt) % 2)
-    val sp = new JClassificationSplitter(labels, 2, 3)
-    val splitIndexes = Range(0, 10000).toArray
-    val data = Array.fill(nLabels)((Math.abs(rg.nextInt()) % 3).toDouble)
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("BasicSplitter-1")
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("BasicSplitter-2")
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("BasicSplitter-3")
-  }
-
-  @Test
-  def testFastSingleSplitter() {
-
-    val rg = new XorShift1024StarRandomGenerator(13)
-    val nLabels = 10000
-    val labels = Array.fill(nLabels)(Math.abs(rg.nextInt) % 2)
-    val sp = new JConfusionClassificationSplitter(labels, 2, 3)
-    val splitIndexes = Range(0, nLabels).toArray
-    val data = Array.fill(nLabels)((Math.abs(rg.nextInt()) % 3).toDouble)
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("ConfusionSplitter-1")
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("ConfusionSplitter-2")
-    Timed.time {
-      for (i <- 0 until 50000) {
-        sp.findSplit(data, splitIndexes)
-      }
-    }.report("ConfusionSplitter-3")
-  }
-
-
-  // TODO (Idea): This is an idea for a fast splitter based on bitmaps
-  // should be very efficient on GPUs
-  //
-  //  def findBitmapSplit(data:Array[BitSet], labels:Array[BitSet], split:BitSet) = {
-  //    // assume entire set
-  //
-  //    val totalCount= labels.map(l => ( l & split ).size).toArray
-  //    for (i <- 0 until data.length -1) {
-  //      val leftCount = labels.map(l => ( l & split & data(i)).size).toArray
-  //    }
-  //  }
-  //
-  //
-  //  def testBits {
-  //    val rg = new XorShift1024StarRandomGenerator(13)
-  //    val nLabels = 10000
-  //    val labels = Array.fill(nLabels)(Math.abs(rg.nextInt) % 2)
-  //    val splitIndexes = Range(0, 10).toArray
-  //    val data = Array.fill(nLabels)((Math.abs(rg.nextInt()) % 3).toByte)
-  //    // encode labels as bytes
-  //    val bSplit = BitSet(splitIndexes:_*)
-  //    val bLabels = Range(0,2).map(i => BitSet(labels.indices.filter(labels(_) == i).toArray:_*)).toArray
-  //    val bData = Range(0,3).map(i => BitSet(data.indices.filter(labels(_) == i).toArray:_*)).toArray
-  //    Timed.time {
-  //      for (i <- 0 until 50000) {
-  //        findBitmapSplit(bData, bLabels, bSplit)
-  //      }
-  //    }.report("Splitting")
-  //    Timed.time {
-  //      for (i <- 0 until 50000) {
-  //        findBitmapSplit(bData, bLabels, bSplit)
-  //      }
-  //    }.report("Splitting1")
-  //    Timed.time {
-  //      for (i <- 0 until 50000) {
-  //        findBitmapSplit(bData, bLabels, bSplit)
-  //      }
-  //    }.report("Splitting2")
-  //  }
-
-
-}
\ No newline at end of file
diff --git a/src/test/scala/au/csiro/variantspark/test/regression/ImportanceDatasetRegressionTest.scala b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceDatasetRegressionTest.scala
new file mode 100644
index 00000000..ff527d72
--- /dev/null
+++ b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceDatasetRegressionTest.scala
@@ -0,0 +1,32 @@
+package au.csiro.variantspark.test.regression
+
+import java.util.Collection
+
+import scala.collection.JavaConverters.asJavaCollectionConverter
+
+import org.junit.Test
+import org.junit.runner.RunWith
+import org.junit.runners.Parameterized
+import org.junit.runners.Parameterized.Parameters
+
+
+/**
+ * Runs regression test for real world datasets 
+ */
+@RunWith(classOf[Parameterized])
+class ImportanceDatasetRegressionTest(filenameWithExpected:String, cmdLine:String) extends ImportanceRegressionTest {
+
+  @Test
+  def testDatasetImportanceOutputMatches() {
+    runRegression(cmdLine, filenameWithExpected)
+  }
+}
+
+object ImportanceDatasetRegressionTest {
+  
+  @Parameters
+  def datasets():Collection[Array[Object]] = List(
+        Array[Object]("chr22-imp_22_16050408.csv", "importance -if data/chr22_1000.vcf -ff data/chr22-labels.csv -fc 22_16050408 -v -rn 100 -rbs 50 -ro -sr 17 -on 100 -sp 4 -of ${outputFile}"),
+        Array[Object]("CNAE-9-imp_category.csv", """importance -if data/CNAE-9-wide.csv -it csv -ff data/CNAE-9-labels.csv -fc category -v -ro -rn 100 -rbs 50 -sr 17 -io {"defVariableType":"ORDINAL(10)"} -sp 4 -on 100 -of ${outputFile}""")
+      ).asJavaCollection
+}
\ No newline at end of file
diff --git a/src/test/scala/au/csiro/variantspark/test/regression/ImportanceRegressionTest.scala b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceRegressionTest.scala
index 7f52cdac..51a2c6de 100644
--- a/src/test/scala/au/csiro/variantspark/test/regression/ImportanceRegressionTest.scala
+++ b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceRegressionTest.scala
@@ -10,8 +10,29 @@ import org.apache.spark.sql.SparkSession
 import org.junit.BeforeClass
 import org.apache.commons.lang3.text.StrSubstitutor
 import collection.JavaConverters._
-import org.junit.runner.RunWith
-import org.junit.Ignore
+
+
+/**
+ * Base class for regression test that compare importance output for know 
+ * datasets and parameters against the recorded one assumed to be correct.
+ * The expected output can be updated with the `dev/test-get-regression-cases.sh`
+ */
+abstract class ImportanceRegressionTest {
+
+  import ImportanceRegressionTest._
+  def expected(fileName:String):String  = new File(ExpectedDir, fileName).getPath
+  def synth(fileName:String):String  = new File(SynthDataDir, fileName).getPath
+  def actual(fileName:String):String  = new File(ActualDir, fileName).getPath
+  
+  def runRegression(cmdLine:String, expextedFileName:String, sessionBuilder:SparkSession.Builder = MasterLocal2) {
+    withSessionBuilder(sessionBuilder) { _ =>
+      val outputFile = actual(expextedFileName)
+      val sub = new StrSubstitutor(Map("outputFile" -> outputFile).asJava)
+      VariantSparkApp.main(sub.replace(cmdLine).split(" "))
+      assertSameContent(expected(expextedFileName), outputFile)
+    } 
+  }
+}
 
 object ImportanceRegressionTest {
   
@@ -44,84 +65,5 @@ object ImportanceRegressionTest {
   }  
 }
 
-class ImportanceRegressionTest {
-
-  import ImportanceRegressionTest._
-
-  def expected(fileName:String):String  = new File(ExpectedDir, fileName).getPath
-  def synth(fileName:String):String  = new File(SynthDataDir, fileName).getPath
-  def actual(fileName:String):String  = new File(ActualDir, fileName).getPath
-  
-  //TODO: Refactor with ParametrizedTest: see: https://www.tutorialspoint.com/junit/junit_parameterized_test.htm
-  def runRegression(cmdLine:String, expextedFileName:String, sessionBuilder:SparkSession.Builder = MasterLocal2) {
-    withSessionBuilder(MasterLocal2) { _ =>
-      val outputFile = actual(expextedFileName)
-      val sub = new StrSubstitutor(Map("outputFile" -> outputFile).asJava)
-      VariantSparkApp.main(sub.replace(cmdLine).split(" "))
-      assertSameContent(expected(expextedFileName), outputFile)
-    } 
-  }
-  
-  def runSynthRegression(caseFile:String) {
-    // synth_2000_500_fact_3_0.995-imp_cat2.csv
-    val caseFileRE = """(synth_([^_]+)_([^_]+)_fact_([^_]+)_([^_]+))-imp_([^_]+).csv""".r
-    caseFile match {
-      case caseFileRE(prefix,_,_,ivo,_,response) => runRegression(s"importance -if ${synth(prefix)}-wide.csv -ff ${synth(prefix)}-labels.csv -fc ${response} -it csv -ivo ${ivo} -v -rn 100 -rbs 50 -ro -sr 17 -on 100 -sp 4 -of $${outputFile}",
-          caseFile)
-    }
-  }
-  
-  @Test
-  def testVFCImportance() {
-    runRegression("importance -if data/chr22_1000.vcf -ff data/chr22-labels.csv -fc 22_16050408 -v -rn 100 -rbs 50 -ro -sr 17 -on 100 -sp 4 -of ${outputFile}",
-        "chr22-imp_22_16050408.csv")
-  }
-
-  @Test
-  def testCNAEImportance() {
-    runRegression("importance -if data/CNAE-9-wide.csv -it csv -ff data/CNAE-9-labels.csv -fc category -v -ro -rn 100 -rbs 50 -sr 17 -ivo 10 -sp 4 -on 100 -of ${outputFile}",
-        "CNAE-9-imp_category.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_3_0_995_imp_cat2() {
-    runSynthRegression("synth_2000_500_fact_3_0.995-imp_cat2.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_3_0_995_imp_cat10() {
-    runSynthRegression("synth_2000_500_fact_3_0.995-imp_cat10.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_3_0_imp_cat2() {
-    runSynthRegression("synth_2000_500_fact_3_0.0-imp_cat2.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_3_0_imp_cat10() {
-    runSynthRegression("synth_2000_500_fact_3_0.0-imp_cat10.csv")
-  }  
-  
-  @Test
-  def test_synth_2000_500_fact_10_0_995_imp_cat2() {
-    runSynthRegression("synth_2000_500_fact_10_0.995-imp_cat2.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_10_0_995_imp_cat10() {
-    runSynthRegression("synth_2000_500_fact_10_0.995-imp_cat10.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_10_0_imp_cat2() {
-    runSynthRegression("synth_2000_500_fact_10_0.0-imp_cat2.csv")
-  }  
-
-  @Test
-  def test_synth_2000_500_fact_10_0_imp_cat10() {
-    runSynthRegression("synth_2000_500_fact_10_0.0-imp_cat10.csv")
-  }  
-}
 
   
diff --git a/src/test/scala/au/csiro/variantspark/test/regression/ImportanceSynthRegressionTest.scala b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceSynthRegressionTest.scala
new file mode 100644
index 00000000..21d52b26
--- /dev/null
+++ b/src/test/scala/au/csiro/variantspark/test/regression/ImportanceSynthRegressionTest.scala
@@ -0,0 +1,43 @@
+package au.csiro.variantspark.test.regression
+
+import java.util.Collection
+
+import scala.collection.JavaConverters.asJavaCollectionConverter
+
+import org.junit.Test
+import org.junit.runner.RunWith
+import org.junit.runners.Parameterized
+import org.junit.runners.Parameterized.Parameters
+import com.google.common.io.PatternFilenameFilter
+
+
+/**
+ * Runs regression test for syntetic datasets
+ * The datasets are generated with `dev/test-get-synth-data.sh`
+ */
+
+@RunWith(classOf[Parameterized])
+class ImportanceSynthRegressionTest(caseFile:String)  extends ImportanceRegressionTest {
+  import ImportanceSynthRegressionTest.caseFileRE
+  
+  @Test
+  def testCaseImportanceOutputMatches() {
+    caseFile match {
+      case caseFileRE(prefix,_,_,ivo,_,response) => runRegression(s"""importance -if ${synth(prefix)}-wide.csv -ff ${synth(prefix)}-labels.csv -fc ${response} -it csv -io {"defVariableType":"ORDINAL(${ivo})"} -v -rn 100 -rbs 50 -ro -sr 17 -on 100 -sp 4 -of $${outputFile}""",
+          caseFile)
+    }
+  }
+}
+
+object ImportanceSynthRegressionTest {
+  import ImportanceRegressionTest._
+
+  /**
+   * Match test cases from such as:  synth_2000_500_fact_3_0.995-imp_cat2.csv
+   */
+  val caseFileRE = """(synth_([^_]+)_([^_]+)_fact_([^_]+)_([^_]+))-imp_([^_]+).csv""".r
+
+  @Parameters
+  def testCases:Collection[Array[Object]] = ExpectedDir.listFiles(new PatternFilenameFilter(caseFileRE.pattern))
+    .map(f => Array[Object](f.getName)).toList.asJavaCollection
+}
\ No newline at end of file