zhengyiissocool
diff --git a/‎_Dist/NeuralNetworks/Base.py
+191-7 b/‎_Dist/NeuralNetworks/Base.py
+191-7
@@ -21,14 +21,16 @@
 
 
 class Generator:
-    def __init__(self, x, y, weights=None, name="Generator", shuffle=True):
+    def __init__(self, x, y, name="Generator", weights=None, n_class=None, shuffle=True):
         self._cache = {}
         self._x, self._y = np.asarray(x, np.float32), np.asarray(y, np.float32)
         if weights is None:
             self._sample_weights = None
         else:
             self._sample_weights = np.asarray(weights, np.float32)
-        if len(self._y.shape) == 1:
+        if n_class is not None:
+            self.n_class = n_class
+        else:
             y_int = self._y.astype(np.int32)
             if np.allclose(self._y, y_int):
                 assert y_int.min() == 0, "Labels should start from 0"
@@ -253,9 +255,9 @@ def init_from_data(self, x, y, x_test, y_test, sample_weights, names):
         else:
             self._tf_sample_weights = tf.placeholder(tf.float32, name="sample_weights")
 
-        self._train_generator = self._generator_base(x, y, self._sample_weights, name="TrainGenerator")
+        self._train_generator = self._generator_base(x, y, "TrainGenerator", self._sample_weights, self.n_class)
         if x_test is not None and y_test is not None:
-            self._test_generator = self._generator_base(x_test, y_test, name="TestGenerator")
+            self._test_generator = self._generator_base(x_test, y_test, "TestGenerator")
         else:
             self._test_generator = None
         self.n_random_train_subset = int(len(self._train_generator) * 0.1)
@@ -1112,7 +1114,7 @@ def _gen_categorical_columns(self):
     def _transform_data(self, data, name, train_name="train",
                         include_label=False, refresh_redundant_info=False, stage=3):
         print("Transforming {0}data{2} at stage {1}".format(
-            "{} ".format(name) if stage >= 2 else "", stage,
+            "{} ".format(name), stage,
             "" if name == train_name or not self.reuse_mean_and_std else
             " with {} data".format(train_name),
         ))
@@ -1227,8 +1229,6 @@ def _get_data_from_file(self, file_type, test_rate):
 
     def _load_data(self, data=None, numerical_idx=None, file_type="txt", names=("train", "test"),
                    shuffle=True, test_rate=0.1, stage=3):
-        if stage == 1:
-            names = (None, None)
         use_cached_data = False
         train_data = test_data = None
         data_cache_folder = os.path.join(self._data_folder, "_Cache", self._name)
@@ -1417,3 +1417,187 @@ def evaluate(self, x, y, x_cv=None, y_cv=None, x_test=None, y_test=None):
                 attr[key] = value
 
         return type(name_, bases, attr)
+
+
+class DistMixin:
+    def reset_all_variables(self):
+        self._sess.run(tf.global_variables_initializer())
+
+    def rolling_fit(self, train_rate=0.8, cv_rate=0.1, sample_weights=None, **kwargs):
+        n_data = len(self._train_generator)
+        if sample_weights is not None:
+            n_weights = len(sample_weights)
+            assert_msg = (
+                "Sample weights should match training data, "
+                "but n_weights={} & n_data={} found".format(n_weights, n_data)
+            )
+            assert n_weights == n_data, assert_msg
+        n_train = int(train_rate * n_data)
+        n_test = int(cv_rate * n_data) if self._test_generator is None else len(self._test_generator)
+        j, cursor, print_settings = 0, 0, kwargs.pop("print_settings", True)
+        flag = test_flag = False
+        if self._test_generator is not None:
+            test_flag = True
+            test_data, _ = self._test_generator.get_all_data()
+            x_test, y_test = test_data[..., :-1], test_data[..., -1]
+        else:
+            x_test = y_test = None
+        print("Rolling fit with train_rate={} and test_rate={}".format(train_rate, cv_rate))
+        while True:
+            j += 1
+            train_cursor = cursor + n_train
+            test_cursor = train_cursor + n_test
+            if n_data - test_cursor < n_test:
+                flag = True
+                test_cursor = n_data
+            with self._train_generator:
+                if self._test_generator is None:
+                    test_data, _ = self._train_generator.get_range(train_cursor, test_cursor)
+                    x_test, y_test = test_data[..., :-1], test_data[..., -1]
+                    self._test_generator = self._generator_base(x_test, y_test, name="TestGenerator")
+                self._train_generator.set_range(cursor, train_cursor)
+                kwargs["print_settings"] = print_settings
+                self.fit(**kwargs)
+                x, y, _ = self._gen_batch(self._train_generator, self.n_random_train_subset, True)
+                print("  -  Performance of roll {}".format(j), end=" | ")
+                self._evaluate(x, y, x_test, y_test)
+                cursor += n_test
+                print_settings = False
+                if not test_flag:
+                    self._test_generator = None
+                if flag:
+                    break
+        with self._train_generator:
+            self._train_generator.set_range(cursor)
+            kwargs["print_settings"] = print_settings
+            self.fit(**kwargs)
+            if self._test_generator is not None:
+                print("  -  Performance of roll {}".format(j + 1), end=" | ")
+                self._evaluate(x_test=x_test, y_test=y_test)
+        return self
+
+    def increment_fit(self, x=None, y=None, x_test=None, y_test=None, sample_weights=None, **kwargs):
+        if x is not None and y is not None:
+            data = np.hstack([np.asarray(x, np.float32), np.asarray(y, np.float32).reshape([-1, 1])])
+            if x_test is not None and y_test is not None:
+                data = (data, np.hstack([
+                    np.asarray(x_test, np.float32), np.asarray(y_test, np.float32).reshape([-1, 1])
+                ]))
+            x, y, x_test, y_test = self._load_data(data)
+        else:
+            data = None
+            if self._test_generator is not None:
+                test_data, _ = self._test_generator.get_all_data()
+                x_test, y_test = test_data[..., :-1], test_data[..., -1]
+        if sample_weights is not None:
+            self._sample_weights = np.asarray(sample_weights, np.float32)
+        self._handle_unbalance(y)
+        self._handle_sparsity()
+        if data is not None:
+            self._train_generator = self._generator_base(x, y, self._sample_weights, name="Generator")
+            if x_test is not None and y_test is not None:
+                self._test_generator = self._generator_base(x_test, y_test, name="TestGenerator")
+        self.fit(**kwargs)
+        x, y, _ = self._gen_batch(self._train_generator, self.n_random_train_subset, True)
+        print("  -  Performance of increment fit", end=" | ")
+        self._evaluate(x, y, x_test, y_test)
+        return self
+
+    def _k_series_initialization(self, k, data):
+        self.init_data_info()
+        x, y, x_test, y_test = self._load_data(data, stage=1)
+        x_test, y_test, *_ = self._load_data(
+            np.hstack([x_test, y_test.reshape([-1, 1])]),
+            names=("test", None), test_rate=0, stage=2
+        )
+        names = [("train{}".format(i), "cv{}".format(i)) for i in range(k)]
+        return x, y, x_test, y_test, names
+
+    def _k_series_evaluation(self, i, x_test, y_test):
+        train, sw_train = self._train_generator.get_all_data()
+        cv, sw_cv = self._test_generator.get_all_data()
+        x, y = train[..., :-1], train[..., -1]
+        x_cv, y_cv = cv[..., :-1], cv[..., -1]
+        print("  -  Performance of run {}".format(i + 1), end=" | ")
+        self._evaluate(x, y, x_cv, y_cv, x_test, y_test)
+
+    def _merge_preprocessors_from_k_series(self, names):
+        train_names, cv_names = [name[0] for name in names], [name[1] for name in names]
+        self._merge_preprocessors_by_names("train", train_names)
+        self._merge_preprocessors_by_names("cv", cv_names)
+
+    def _merge_preprocessors_by_names(self, target, names):
+        if len(names) == 1:
+            self._pre_processors[target] = self._pre_processors.pop(names[0])
+        pre_processors = [self._pre_processors.pop(name) for name in names]
+        methods = [pre_processor.method for pre_processor in pre_processors]
+        scale_methods = [pre_processor.scale_method for pre_processor in pre_processors]
+        assert Toolbox.all_same(methods), "Pre_process method should be all_same"
+        assert Toolbox.all_same(scale_methods), "Scale method should be all_same"
+        new_processor = PreProcessor(methods[0], scale_methods[0])
+        new_processor.mean = np.mean([pre_processor.mean for pre_processor in pre_processors], axis=0)
+        new_processor.std = np.mean([pre_processor.std for pre_processor in pre_processors], axis=0)
+        self._pre_processors[target] = new_processor
+
+    def k_fold(self, k=10, data=None, test_rate=0., sample_weights=None, **kwargs):
+        x, y, x_test, y_test, names = self._k_series_initialization(k, data)
+        n_batch = int(len(x) / k)
+        all_idx = list(range(len(x)))
+        print_settings = True
+        if sample_weights is not None:
+            self._sample_weights = np.asarray(sample_weights, np.float32)
+        sample_weights_store = self._sample_weights
+        print("Training k-fold with k={} and test_rate={}".format(k, test_rate))
+        for i in range(k):
+            self.reset_all_variables()
+            cv_idx = list(range(i * n_batch, (i + 1) * n_batch))
+            train_idx = [j for j in all_idx if j < i * n_batch or j >= (i + 1) * n_batch]
+            x_cv, y_cv = x[cv_idx], y[cv_idx]
+            x_train, y_train = x[train_idx], y[train_idx]
+            if sample_weights is not None:
+                self._sample_weights = sample_weights_store[train_idx]
+            else:
+                self._sample_weights = None
+            kwargs["print_settings"] = print_settings
+            kwargs["names"] = names[i]
+            self.data_info["stage"] = 2
+            self.fit(x_train, y_train, x_cv, y_cv, **kwargs)
+            self._k_series_evaluation(i, x_test, y_test)
+            print_settings = False
+        self.data_info["stage"] = 3
+        self._merge_preprocessors_from_k_series(names)
+        self._sample_weights = sample_weights_store
+        if x_test is not None and y_test is not None:
+            self._test_generator = self._generator_base(x_test, y_test, name="TestGenerator")
+        return self
+
+    def k_random(self, k=3, data=None, cv_rate=0.1, test_rate=0., sample_weights=None, **kwargs):
+        x, y, x_test, y_test, names = self._k_series_initialization(k, data)
+        n_cv = int(cv_rate * len(x))
+        print_settings = True
+        if sample_weights is not None:
+            self._sample_weights = np.asarray(sample_weights, np.float32)
+        sample_weights_store = self._sample_weights
+        print("Training k-random with k={}, cv_rate={} and test_rate={}".format(k, cv_rate, test_rate))
+        for i in range(k):
+            self.reset_all_variables()
+            all_idx = np.random.permutation(len(x))
+            cv_idx, train_idx = all_idx[:n_cv], all_idx[n_cv:]
+            x_cv, y_cv = x[cv_idx], y[cv_idx]
+            x_train, y_train = x[train_idx], y[train_idx]
+            if sample_weights is not None:
+                self._sample_weights = sample_weights_store[train_idx]
+            else:
+                self._sample_weights = None
+            kwargs["print_settings"] = print_settings
+            kwargs["names"] = names[i]
+            self.data_info["stage"] = 2
+            self.fit(x_train, y_train, x_cv, y_cv, **kwargs)
+            self._k_series_evaluation(i, x_test, y_test)
+            print_settings = False
+        self.data_info["stage"] = 3
+        self._merge_preprocessors_from_k_series(names)
+        self._sample_weights = sample_weights_store
+        if x_test is not None and y_test is not None:
+            self._test_generator = self._generator_base(x_test, y_test, name="TestGenerator")
+        return self