Added abalone + letters, updated all GB configs

IntelPython · Alexsandruss · Apr 26, 2021 · Mar 22, 2021 · Mar 22, 2021 · Mar 22, 2021
commit 340402e1176f7f5839c1372e172871b6f5186a47
diff --git a/configs/lgbm_mb_cpu_config.json b/configs/lgbm_mb_cpu_config.json
@@ -1,108 +1,120 @@
 {
     "common": {
-        "lib": ["modelbuilders"],
-        "data-format": ["pandas"],
-        "data-order": ["F"],
-        "dtype": ["float32"]
+        "lib":          "modelbuilders",
+        "data-format":  "pandas",
+        "data-order":   "F",
+        "dtype":        "float32",
+        "algorithm":    "lgbm_mb"
     },
     "cases": [
         {
-            "algorithm": "lgbm_mb",
             "dataset": [
                 {
-                    "source": "csv",
-                    "name": "mortgage1Q",
+                    "source":   "npy",
+                    "name":     "airline-ohe",
                     "training":
                     {
-                        "x": "data/mortgage_x.csv",
-                        "y": "data/mortgage_y.csv"
+                        "x":    "data/airline-ohe_x_train.npy",
+                        "y":    "data/airline-ohe_y_train.npy"
+                    },
+                    "testing":
+                    {
+                        "x":    "data/airline-ohe_x_test.npy",
+                        "y":    "data/airline-ohe_y_test.npy"
                     }
                 }
             ],
-            "n-estimators": [100],
-            "objective": ["regression"],
-            "max-depth": [8],
-            "scale-pos-weight": [2],
-            "learning-rate": [0.1],
-            "subsample": [1],
-            "reg-alpha": [0.9],
-            "reg-lambda": [1],
-            "min-child-weight": [0],
-            "max-leaves": [256]
+            "reg-alpha":        0.9,
+            "max-bin":          256,
+            "scale-pos-weight": 2,
+            "learning-rate":    0.1,
+            "subsample":        1,
+            "reg-lambda":       1,
+            "min-child-weight": 0,
+            "max-depth":        8,
+            "max-leaves":       256,
+            "n-estimators":     1000,
+            "objective":        "binary"
         },
         {
-            "algorithm": "lgbm_mb",
             "dataset": [
                 {
-                    "source": "csv",
-                    "name": "airline-ohe",
+                    "source":   "npy",
+                    "name":     "higgs1m",
                     "training":
                     {
-                        "x": "data/airline-ohe_x_train.csv",
-                        "y": "data/airline-ohe_y_train.csv"
+                        "x":    "data/higgs1m_x_train.npy",
+                        "y":    "data/higgs1m_y_train.npy"
+                    },
+                    "testing":
+                    {
+                        "x":    "data/higgs1m_x_test.npy",
+                        "y":    "data/higgs1m_y_test.npy"
                     }
                 }
             ],
-            "reg-alpha": [0.9],
-            "max-bin": [256],
-            "scale-pos-weight": [2],
-            "learning-rate": [0.1],
-            "subsample": [1],
-            "reg-lambda":  [1],
-            "min-child-weight": [0],
-            "max-depth": [8],
-            "max-leaves": [256],
-            "n-estimators": [1000],
-            "objective": ["binary"]
+            "reg-alpha":        0.9,
+            "max-bin":          256,
+            "scale-pos-weight": 2,
+            "learning-rate":    0.1,
+            "subsample":        1,
+            "reg-lambda":       1,
+            "min-child-weight": 0,
+            "max-depth":        8,
+            "max-leaves":       256,
+            "n-estimators":     1000,
+            "objective":        "binary"
         },
         {
-            "algorithm": "lgbm_mb",
             "dataset": [
                 {
-                    "source": "csv",
-                    "name": "higgs1m",
+                    "source":   "csv",
+                    "name":     "mortgage1Q",
                     "training":
                     {
-                        "x": "data/higgs1m_x_train.csv",
-                        "y": "data/higgs1m_y_train.csv"
+                        "x":    "data/mortgage_x.csv",
+                        "y":    "data/mortgage_y.csv"
                     }
                 }
             ],
-            "reg-alpha": [0.9],
-            "max-bin": [256],
-            "scale-pos-weight": [2],
-            "learning-rate": [0.1],
-            "subsample": [1],
-            "reg-lambda":  [1],
-            "min-child-weight": [0],
-            "max-depth": [8],
-            "max-leaves": [256],
-            "n-estimators": [1000],
-            "objective": ["binary"]
+            "n-estimators":     100,
+            "objective":        "regression",
+            "max-depth":        8,
+            "scale-pos-weight": 2,
+            "learning-rate":    0.1,
+            "subsample":        1,
+            "reg-alpha":        0.9,
+            "reg-lambda":       1,
+            "min-child-weight": 0,
+            "max-leaves":       256
         },
         {
-            "algorithm": "lgbm_mb",
             "dataset": [
                 {
-                    "source": "csv",
-                    "name": "msrank",
+                    "source":   "npy",
+                    "name":     "msrank",
                     "training":
                     {
-                        "x": "data/mlsr_x_train.csv",
-                        "y": "data/mlsr_y_train.csv"
+                        "x":    "data/msrank_x_train.npy",
+                        "y":    "data/msrank_y_train.npy"
+                    },
+                    "testing":
+                    {
+                        "x":    "data/msrank_x_test.npy",
+                        "y":    "data/msrank_y_test.npy"
                     }
                 }
             ],
-            "max-bin": [256],
-            "learning-rate": [0.3],
-            "subsample": [1],
-            "reg-lambda":  [2],
-            "min-child-weight": [1],
-            "min-split-gain": [0.1],
-            "max-depth": [8],
-            "max-leaves": [256],
-            "n-estimators": [200],
-            "objective": ["multiclass"]
+            "max-bin":          256,
+            "learning-rate":    0.3,
+            "subsample":        1,
+            "reg-lambda":       2,
+            "min-child-weight": 1,
+            "min-split-loss":   0.1,
+            "max-depth":        8,
+            "max-leaves":       256,
+            "n-estimators":     200,
+            "objective":        "multiclass"
         }
     ]
 }
diff --git a/configs/xgb_cpu_config.json b/configs/xgb_cpu_config.json
@@ -4,77 +4,32 @@
         "data-format":  "pandas",
         "data-order":   "F",
         "dtype":        "float32",
-        "count-dmatrix":"",
         "algorithm":    "gbt",
         "tree-method":  "hist",
-        "num-threads":  56
+        "count-dmatrix":""
     },
     "cases": [
         {
             "dataset": [
                 {
-                    "source":   "csv",
-                    "name":     "plasticc",
+                    "source":   "npy",
+                    "name":     "abalone",
                     "training":
                     {
-                        "x":    "data/plasticc_x_train.csv",
-                        "y":    "data/plasticc_y_train.csv"
+                        "x":    "data/abalone_x_train.npy",
+                        "y":    "data/abalone_y_train.npy"
                     },
                     "testing":
                     {
-                        "x":    "data/plasticc_x_test.csv",
-                        "y":    "data/plasticc_y_test.csv"
-                    }
-                }
-            ],
-            "n-estimators":     60,
-            "objective":        "multi:softprob",
-            "max-depth":        7,
-            "subsample":        0.7,
-            "colsample-bytree": 0.7
-        },
-        {
-            "dataset": [
-                {
-                    "source":   "csv",
-                    "name":     "santander",
-                    "training":
-                    {
-                        "x":    "data/santander_x_train.csv",
-                        "y":    "data/santander_y_train.csv"
-                    }
-                }
-            ],
-            "n-estimators":                 10000,
-            "objective":                    "binary:logistic",
-            "max-depth":                    1,
-            "subsample":                    0.5,
-            "eta":                          0.1,
-            "colsample-bytree":             0.05,
-            "single-precision-histogram":   ""
-        },
-        {
-            "dataset": [
-                {
-                    "source":   "csv",
-                    "name":     "mortgage1Q",
-                    "training":
-                    {
-                        "x":    "data/mortgage_x.csv",
-                        "y":    "data/mortgage_y.csv"
+                        "x":    "data/abalone_x_test.npy",
+                        "y":    "data/abalone_y_test.npy"
                     }
                 }
             ],
-            "n-estimators":     100,
-            "objective":        "reg:squarederror",
-            "max-depth":        8,
-            "scale-pos-weight": 2,
-            "learning-rate":    0.1,
-            "subsample":        1,
-            "reg-alpha":        0.9,
-            "reg-lambda":       1,
-            "min-child-weight": 0,
-            "max-leaves":       256
+            "learning-rate":    0.03,
+            "max-depth":        6,
+            "n-estimators":     1000,
+            "objective":        "reg:squarederror"
         },
         {
             "dataset": [
@@ -136,6 +91,51 @@
             "enable-experimental-json-serialization":   "False",
             "inplace-predict":                          ""
         },
+        {
+            "dataset": [
+                {
+                    "source":   "npy",
+                    "name":     "letters",
+                    "training":
+                    {
+                        "x":    "data/letters_x_train.npy",
+                        "y":    "data/letters_y_train.npy"
+                    },
+                    "testing":
+                    {
+                        "x":    "data/letters_x_test.npy",
+                        "y":    "data/letters_y_test.npy"
+                    }
+                }
+            ],
+            "learning-rate":    0.03,
+            "max-depth":        6,
+            "n-estimators":     1000,
+            "objective":        "multi:softprob"
+        },
+        {
+            "dataset": [
+                {
+                    "source":   "csv",
+                    "name":     "mortgage1Q",
+                    "training":
+                    {
+                        "x":    "data/mortgage_x.csv",
+                        "y":    "data/mortgage_y.csv"
+                    }
+                }
+            ],
+            "n-estimators":     100,
+            "objective":        "reg:squarederror",
+            "max-depth":        8,
+            "scale-pos-weight": 2,
+            "learning-rate":    0.1,
+            "subsample":        1,
+            "reg-alpha":        0.9,
+            "reg-lambda":       1,
+            "min-child-weight": 0,
+            "max-leaves":       256
+        },
         {
             "dataset": [
                 {
@@ -163,6 +163,49 @@
             "n-estimators":                 200,
             "objective":                    "multi:softprob",
             "single-precision-histogram":   ""
+        },
+        {
+            "dataset": [
+                {
+                    "source":   "csv",
+                    "name":     "plasticc",
+                    "training":
+                    {
+                        "x":    "data/plasticc_x_train.csv",
+                        "y":    "data/plasticc_y_train.csv"
+                    },
+                    "testing":
+                    {
+                        "x":    "data/plasticc_x_test.csv",
+                        "y":    "data/plasticc_y_test.csv"
+                    }
+                }
+            ],
+            "n-estimators":     60,
+            "objective":        "multi:softprob",
+            "max-depth":        7,
+            "subsample":        0.7,
+            "colsample-bytree": 0.7
+        },
+        {
+            "dataset": [
+                {
+                    "source":   "csv",
+                    "name":     "santander",
+                    "training":
+                    {
+                        "x":    "data/santander_x_train.csv",
+                        "y":    "data/santander_y_train.csv"
+                    }
+                }
+            ],
+            "n-estimators":                 10000,
+            "objective":                    "binary:logistic",
+            "max-depth":                    1,
+            "subsample":                    0.5,
+            "eta":                          0.1,
+            "colsample-bytree":             0.05,
+            "single-precision-histogram":   ""
         }
     ]
 }