glimpse of hope

rasdani · rasdani · commit 3a2bd1108bec · 2023-07-22T19:26:21.000+02:00
diff --git a/mp_transformer/config.py b/mp_transformer/config.py
@@ -3,65 +3,80 @@
     "pose_dim": 6,
     "num_attention_heads": 4,
     "num_transformer_layers": 4,
+    # "num_transformer_layers": 2,
+    # "latent_dim": 4,
+    # "latent_dim": 6,
     # "latent_dim": 8,
+    "latent_dim": 12,
     # "latent_dim": 16,
     #  "latent_dim": 32,
     # "latent_dim": 48,
     # "latent_dim": 64,
-    "latent_dim": 128,
+    # "latent_dim": 128,
     #  "latent_dim": 256,
     # "num_primitives": 4,
     "num_primitives": 6,
     # "num_primitives": 8,
+    # "hidden_dim": 4,
+    # "hidden_dim": 6,
+    # "hidden_dim": 8,
     # "hidden_dim": 16,
     #  "hidden_dim": 32,
     # "hidden_dim": 48,
+    # "hidden_dim": 56,
     # "hidden_dim": 64,
+    # "hidden_dim": 80,
+    # "hidden_dim": 96,
     "hidden_dim": 128,
     #  "hidden_dim": 256,
     "learn_segmentation": True,
     "masking_slope": 1,
     # "masking_slope": 0.75,
     # "masking_slope": 0.5,
+    # "kl_weight": 1e-6,
     # "kl_weight": 1e-5,
     # "kl_weight": 5e-3,
     # "kl_weight": 1e-2,
     # "kl_weight": 2e-2,
     # "kl_weight": 5e-2,
-    "kl_weight": 1e-1,
+    # "kl_weight": 1e-1,
     # "kl_weight": 1e-3,
-    # "kl_weight": 1e-4,
-    "anneal_start": 10,
+    "kl_weight": 1e-4,
+    # "anneal_start": 10,
+    # "anneal_start": 199,
     # "anneal_start": 5,
-    # "anneal_start": 0,
-    "anneal_end": 50,
+    "anneal_start": 0,
+    # "anneal_end": 50,
+    # "anneal_end": 100,
+    # "anneal_end": 199,
     # "anneal_end": 30,
     # "anneal_end": 20,
     # "anneal_end": 15,
-    # "anneal_end": 0,
+    "anneal_end": 0,
     "cycle_length": None,
     # "cycle_length": 100,
     # "cycle_length": 200,
-    # "durations_weight": 1e-6,
+    "durations_weight": 1e-6,
     # "durations_weight": 1e-4,
-    "durations_weight": 0,
+    # "durations_weight": 0,
     # "durations_weight": 1e-5,
-    "lr": 1e-4,
-    # "lr": 5e-4,
+    # "lr": 1e-4,
+    "lr": 2e-4,
+    # "lr": 4e-4,
     "batch_size": 8,
     # "batch_size": 16,
     "N_train": 200000,
     # "N_train": 2,
     "N_val": 40000,
     # "N_val": 2,
     "sequence_length": 128,
-    # "epochs": 200,
+    "epochs": 200,
     # "epochs": 250,
     # "epochs": 230,
     # "epochs": 2000,
     # "epochs": 1000,
     # "epochs": 300,
-    "epochs": 500,
+    # "epochs": 500,
     # "epochs": 800,
     # "epochs": 400,
     # "epochs": 5,
@@ -77,13 +92,22 @@
     # "run_name": "midKL-Transformer",
     # "run_name": "lowKL-Transformer",
     # "run_name": "highKL-Transformer",
-    "run_name": "veryhighKL-Transformer",
+    # "run_name": "veryhighKL-Transformer",
+    # "run_name": "tiny-Transformer",
+    # "run_name": "noKLmedium-Transformer",
+    # "run_name": "slowanneal-Transformer",
+    # "run_name": "tinyKL-Transformer",
     # "run_name": "noanneal-highKL-Transformer",
     # "run_name": "cyclical-Transformer",
     # "run_name": "cyclical-lowKL-Transformer",
     # "run_name": "nosigmoid-Transformer",
     # "run_name": "nosigmoid-Transformer",
     # "run_name": "relu-sigmoid-Transformer",
+    # "run_name": "bottleneck-Transformer",
+    # "run_name": "more-bottleneck",
+    # "run_name": "lowKL-most-bottleneck",
+    "run_name": "KL-most-bottleneck",
+    # "run_name": "short-more-bottleneck",
 }
 
 # for hyperparameter tuning with wandb sweep
diff --git a/mp_transformer/models/decoder.py b/mp_transformer/models/decoder.py
@@ -40,10 +40,13 @@ def __init__(self, config):
         # Decodes latent primtives and timestamps into subsequences of poses
         self.decoder = nn.Sequential(
             # self.feat_time: time feature dimension
-            nn.Linear(self.latent_dim + 2 * self.feat_time, self.hidden_dim),
+            # nn.Linear(self.latent_dim + 2 * self.feat_time, self.hidden_dim),
+            nn.Linear(self.latent_dim + 2 * self.feat_time, self.hidden_dim // 2),
             nn.ReLU(),
-            nn.LayerNorm(self.hidden_dim),
-            nn.Linear(self.hidden_dim, self.hidden_dim),
+            # nn.LayerNorm(self.hidden_dim),
+            # nn.Linear(self.hidden_dim, self.hidden_dim),
+            nn.LayerNorm(self.hidden_dim // 2),
+            nn.Linear(self.hidden_dim // 2, self.hidden_dim),
             nn.ReLU(),
             nn.LayerNorm(self.hidden_dim),
             nn.Linear(self.hidden_dim, self.pose_dim),
diff --git a/mp_transformer/models/encoder.py b/mp_transformer/models/encoder.py
@@ -12,7 +12,8 @@ class PositionalEncodingLayer(pl.LightningModule):
 
     def __init__(self, config):
         super().__init__()
-        self.latent_dim = config["latent_dim"]
+        # self.latent_dim = config["latent_dim"]
+        self.latent_dim = config["hidden_dim"]
 
         # sinusoidal frequencies for positional encoding
         # linearly spaced 1D tensor ranging from 0 to self.latent_dim a size of self.latent_dim // 2
@@ -74,6 +75,7 @@ def __init__(self, config):
         # self.save_hyperparameters(config) # PyTorch Lightning
 
         self.pose_dim = config["pose_dim"]
+        self.hidden_dim = config["hidden_dim"]
         self.num_primitives = config["num_primitives"]
         self.latent_dim = config["latent_dim"]
         self.num_attention_heads = config["num_attention_heads"]
@@ -82,12 +84,20 @@ def __init__(self, config):
 
         self.positional_encoding = PositionalEncodingLayer(config)
 
+        # encoder_layer = nn.TransformerEncoderLayer(
+        #     d_model=self.latent_dim,
+        #     nhead=self.num_attention_heads,
+        # )
+        # decoder_layer = nn.TransformerDecoderLayer(
+        #     d_model=self.latent_dim,
+        #     nhead=self.num_attention_heads,
+        # )
         encoder_layer = nn.TransformerEncoderLayer(
-            d_model=self.latent_dim,
+            d_model=self.hidden_dim,
             nhead=self.num_attention_heads,
         )
         decoder_layer = nn.TransformerDecoderLayer(
-            d_model=self.latent_dim,
+            d_model=self.hidden_dim,
             nhead=self.num_attention_heads,
         )
         self.encoder_segments = torch.nn.TransformerEncoder(
@@ -97,23 +107,30 @@ def __init__(self, config):
             decoder_layer=decoder_layer, num_layers=self.num_transformer_layers
         )
 
-        self.embedding = nn.Linear(self.pose_dim, self.latent_dim)
+        self.embedding = nn.Linear(self.pose_dim, self.hidden_dim)
 
         self.mean_encoder = nn.Sequential(
-            nn.Linear(self.latent_dim, self.latent_dim),
+            # nn.Linear(self.hidden_dim, self.hidden_dim),
+            nn.Linear(self.hidden_dim, self.hidden_dim // 2),
             nn.ReLU(),
-            nn.Linear(self.latent_dim, self.latent_dim),
+            # nn.Linear(self.hidden_dim, self.latent_dim),
+            nn.Linear(self.hidden_dim // 2, self.latent_dim),
         )
         self.logvar_encoder = nn.Sequential(
-            nn.Linear(self.latent_dim, self.latent_dim),
+            # nn.Linear(self.hidden_dim, self.hidden_dim),
+            nn.Linear(self.hidden_dim, self.hidden_dim // 2),
             nn.ReLU(),
-            nn.Linear(self.latent_dim, self.latent_dim),
+            # nn.Linear(self.hidden_dim, self.latent_dim),
+            nn.Linear(self.hidden_dim // 2, self.latent_dim),
         )
 
         # positional encoding used as input for the transformer decoder
         # TODO: keep or move?
+        # self.initial_encoding = self.get_positional_encoding(
+        #     self.num_primitives, self.latent_dim
+        # )
         self.initial_encoding = self.get_positional_encoding(
-            self.num_primitives, self.latent_dim
+            self.num_primitives, self.hidden_dim
         )
 
     # TODO: use PositionalEncodingLayer instead?
diff --git a/unittests/test_train.py b/unittests/test_train.py
@@ -13,7 +13,7 @@ def test_main(self):
         minimal_config = {
             "latent_dim": 4,
             "num_primitives": 2,
-            "hidden_dim": 2,
+            "hidden_dim": 4,
             "batch_size": 3,
             "sequence_length": 5,
             "N_train": 4,