FlagOpen · upvenly · Aug 29, 2023 · Aug 28, 2023
diff --git a/training/benchmarks/cpm/pytorch/train/evaluator.py b/training/benchmarks/cpm/pytorch/train/evaluator.py
@@ -40,7 +40,9 @@ def evaluate(self, trainer):
                 all_losses.append(loss.item())
 
                 preds = torch.argmax(output, -1)
-                if isinstance(model.module, FP16_Module):
+                if not hasattr(model, "module"):
+                   embeddings = model.word_embeddings.weight
+                elif isinstance(model.module, FP16_Module):
                     embeddings = model.module.module.word_embeddings.weight
                 else:
                     embeddings = model.module.word_embeddings.weight

diff --git a/training/benchmarks/cpm/pytorch/train/trainer.py b/training/benchmarks/cpm/pytorch/train/trainer.py
@@ -142,7 +142,10 @@ def train_one_step(self, batch, no_model_batch):
 
         # calculate output
         preds = torch.argmax(output, -1)
-        if isinstance(self.model.module, FP16_Module):
+
+        if not hasattr(self.model, "module"):
+            embeddings = self.model.word_embeddings.weight
+        elif isinstance(self.model.module, FP16_Module):
             embeddings = self.model.module.module.word_embeddings.weight
         else:
             embeddings = self.model.module.word_embeddings.weight

diff --git a/training/benchmarks/cpm/pytorch/train/trainer_adapter.py b/training/benchmarks/cpm/pytorch/train/trainer_adapter.py
@@ -38,16 +38,17 @@ def create_optimizer(config, model: nn.Module) -> Optimizer:
 
 def model_to_fp16(config, model: nn.Module,
                   optimizer: Optimizer) -> Tuple[nn.Module, Optimizer]:
-    model = FP16_Module(model)
     args = config
-    optimizer = FP16_Optimizer(optimizer,
-                               static_loss_scale=args.loss_scale,
-                               dynamic_loss_scale=args.dynamic_loss_scale,
-                               dynamic_loss_args={
-                                   'scale_window': args.loss_scale_window,
-                                   'min_scale': args.min_scale,
-                                   'delayed_shift': args.hysteresis
-                               })
+    if args.fp16:
+        model = FP16_Module(model)
+        optimizer = FP16_Optimizer(optimizer,
+                                static_loss_scale=args.loss_scale,
+                                dynamic_loss_scale=args.dynamic_loss_scale,
+                                dynamic_loss_args={
+                                    'scale_window': args.loss_scale_window,
+                                    'min_scale': args.min_scale,
+                                    'delayed_shift': args.hysteresis
+                                })
 
     return model, optimizer