Moved Loading of Dataset & Printing for results.csv to data.py

graphdeeplearning · Jan 14, 2018 · 0dddf0c · 0dddf0c
1 parent 8e149cd
commit 0dddf0c
Show file tree

Hide file tree

Showing 7 changed files with 60 additions and 74 deletions.
diff --git a/baseline.py b/baseline.py
@@ -8,13 +8,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="tfidf", norm="l1")
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="tfidf", norm="l1")
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="tfidf", norm="l1")
 
 x_train = train.data_tfidf.astype(np.float32)
 x_test = test.data_tfidf.astype(np.float32)
@@ -41,10 +36,14 @@
 svm_clf = LinearSVC()
 svm_clf.fit(x_train, y_train)
 predicted = svm_clf.predict(x_test)
-print("Linear SVC Accuracy: {:.4f}".format(np.mean(predicted == y_test)))
+svm_acc = np.mean(predicted == y_test)
 
 # Multinomial Naive Bayes Classifier
 bayes_clf = MultinomialNB(alpha=0.01)
 bayes_clf.fit(x_train, y_train)
 predicted = bayes_clf.predict(x_test)
-print("Multinomial Naive Bayes Accuracy: {:.4f}".format(np.mean(predicted == y_test)))
+bayes_acc = np.mean(predicted == y_test)
+
+# Output for results.csv
+data.print_result(dataset, "Linear SVC", svm_acc)
+data.print_result(dataset, "Multinomial Naive Bayes", bayes_acc)
diff --git a/cnn_ykim_train.py b/cnn_ykim_train.py
@@ -1,6 +1,5 @@
 import os
 import time
-import subprocess
 
 import numpy as np
 import tensorflow as tf
@@ -42,13 +41,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="word2ind", maxlen=seq_len)
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="word2ind", maxlen=seq_len)
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="word2ind", maxlen=seq_len)
 
 x_train = train.data_word2ind.astype(np.int32)
 x_test = test.data_word2ind.astype(np.int32)
@@ -105,6 +99,4 @@
         # Output for results.csv
         hyperparams = "{{seq_len: {}, filter_heights: {}, num_features: {}}}".format(
             seq_len, filter_heights, num_features)
-        latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
-        print("\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(model_name, hyperparams, max_accuracy,
-                                                              latest_git, timestamp))
+        data.print_result(dataset, model_name, max_accuracy, hyperparams, timestamp)
diff --git a/data.py b/data.py
@@ -1,5 +1,6 @@
 import re
 import collections
+import subprocess
 
 import numpy as np
 import sklearn.datasets
@@ -133,7 +134,7 @@ def generate_word2ind(self, maxlen=None, padding="post", truncating="post"):
 
 class Text20News(TextDataset):
     """
-    20 Newsgroups Dataset
+    20 Newsgroups dataset.
     http://scikit-learn.org/stable/datasets/twenty_newsgroups.html
     """
 
@@ -177,18 +178,20 @@ def preprocess_test(self, train_vocab, out, **params):
             self.generate_word2ind(**params)
 
 
-def one_hot_labels(num_labels, labels):
+def load_dataset(dataset, out, **params):
     """
-    Generate one-hot encoded label arrays.
+    Returns the train & test datasets for a chosen dataset.
     """
-    labels_arr = []
-    for i in range(len(labels)):
-        label = [0 for j in range(num_labels)]
-        label[labels[i]] = 1
-        labels_arr.append(label)
-    y = np.array(labels_arr)
+    if dataset == "20 Newsgroups":
+        print("Loading training data...")
+        train = Text20News(subset="train")
+        train.preprocess_train(out=out, **params)
 
-    return y
+        print("Loading test data...")
+        test = Text20News(subset="test")
+        test.preprocess_test(train_vocab=train.vocab, out=out, **params)
+
+        return train, test
 
 
 def load_word2vec(filepath, vocabulary, embedding_dim):
@@ -243,3 +246,27 @@ def batch_iter(data, batch_size, num_epochs, shuffle=True):
                 indices.extend(np.arange(data_size))
         idx = [indices.popleft() for i in range(batch_size)]
         yield data[idx]
+
+
+def one_hot_labels(num_labels, labels):
+    """
+    Generate one-hot encoded label arrays.
+    """
+    labels_arr = []
+    for i in range(len(labels)):
+        label = [0 for j in range(num_labels)]
+        label[labels[i]] = 1
+        labels_arr.append(label)
+    y = np.array(labels_arr)
+
+    return y
+
+
+def print_result(dataset, model_name, acc, hyperparams="-", timestamp="-", notes="-"):
+    """
+    Prints the record for results.csv.
+    """
+    latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
+    print("")
+    print("\"{}\",\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(dataset, model_name, hyperparams,
+                                                                 acc, notes, latest_git, timestamp))
diff --git a/gcnn_fourier_train.py b/gcnn_fourier_train.py
@@ -1,6 +1,5 @@
 import os
 import time
-import subprocess
 
 import numpy as np
 import tensorflow as tf
@@ -48,13 +47,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="tfidf", norm="l1")
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="tfidf", norm="l1")
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="tfidf", norm="l1")
 
 x_train = train.data_tfidf.astype(np.float32)
 x_test = test.data_tfidf.astype(np.float32)
@@ -135,6 +129,4 @@
         # Output for results.csv
         hyperparams = "{{num_edges: {}, coarsening_levels: {}, filter_sizes: {}, num_features: {}, pooling_sizes: {}, fc_layers: {}, dropout: {}}}".format(
             num_edges, coarsening_levels, filter_sizes, num_features, pooling_sizes, fc_layers, dropout_keep_prob)
-        latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
-        print("\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(model_name, hyperparams, max_accuracy,
-                                                              latest_git, timestamp))
+        data.print_result(dataset, model_name, max_accuracy, hyperparams, timestamp)
diff --git a/gcnn_mdeff_train.py b/gcnn_mdeff_train.py
@@ -1,6 +1,5 @@
 import os
 import time
-import subprocess
 
 import numpy as np
 import tensorflow as tf
@@ -49,13 +48,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="tfidf", norm="l1")
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="tfidf", norm="l1")
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="tfidf", norm="l1")
 
 x_train = train.data_tfidf.astype(np.float32)
 x_test = test.data_tfidf.astype(np.float32)
@@ -135,6 +129,4 @@
         # Output for results.csv
         hyperparams = "{{num_edges: {}, coarsening_levels: {}, polynomial_orders: {}, num_features: {}, pooling_sizes: {}, fc_layers: {}, dropout: {}}}".format(
             num_edges, coarsening_levels, polynomial_orders, num_features, pooling_sizes, fc_layers, dropout_keep_prob)
-        latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
-        print("\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(model_name, hyperparams, max_accuracy,
-                                                              latest_git, timestamp))
+        data.print_result(dataset, model_name, max_accuracy, hyperparams, timestamp)
diff --git a/gcnn_spline_train.py b/gcnn_spline_train.py
@@ -1,6 +1,5 @@
 import os
 import time
-import subprocess
 
 import numpy as np
 import tensorflow as tf
@@ -49,13 +48,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="tfidf", norm="l1")
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="tfidf", norm="l1")
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="tfidf", norm="l1")
 
 x_train = train.data_tfidf.astype(np.float32)
 x_test = test.data_tfidf.astype(np.float32)
@@ -135,6 +129,4 @@
         # Output for results.csv
         hyperparams = "{{num_edges: {}, coarsening_levels: {}, filter_sizes: {}, num_features: {}, pooling_sizes: {}, fc_layers: {}, dropout: {}}}".format(
             num_edges, coarsening_levels, filter_sizes, num_features, pooling_sizes, fc_layers, dropout_keep_prob)
-        latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
-        print("\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(model_name, hyperparams, max_accuracy,
-                                                              latest_git, timestamp))
+        data.print_result(dataset, model_name, max_accuracy, hyperparams, timestamp)
diff --git a/mlp_train.py b/mlp_train.py
@@ -1,6 +1,5 @@
 import os
 import time
-import subprocess
 
 import numpy as np
 import tensorflow as tf
@@ -36,13 +35,8 @@
 # Data Preparation
 # ==================================================
 
-print("Loading training data...")
-train = data.Text20News(subset="train")
-train.preprocess_train(out="tfidf", norm="l1")
-
-print("Loading test data...")
-test = data.Text20News(subset="test")
-test.preprocess_test(train_vocab=train.vocab, out="tfidf", norm="l1")
+dataset = "20 Newsgroups"
+train, test = data.load_dataset(dataset, out="tfidf", norm="l1")
 
 x_train = train.data_tfidf.astype(np.float32)
 x_test = test.data_tfidf.astype(np.float32)
@@ -89,6 +83,4 @@
 
         # Output for results.csv
         hyperparams = "{{layers: {}}}".format(layers)
-        latest_git = subprocess.check_output(['git', 'rev-parse', '--short', 'HEAD']).decode().strip()
-        print("\"{}\",\"{}\",\"{:.9f}\",\"{}\",\"{}\"".format(model_name, hyperparams,
-                                                              max_accuracy, latest_git, timestamp))
+        data.print_result(dataset, model_name, max_accuracy, hyperparams, timestamp)