allenai · saurabh111233212 · Oct 24, 2025 · gemini-code-assist · Oct 24, 2025
diff --git a/open_instruct/grpo_fast.py b/open_instruct/grpo_fast.py
@@ -776,13 +776,20 @@ def load(self, path: str, map_location=None):
 
         # Load reference policy checkpoint if available
         if hasattr(self, "ref_policy_checkpoint_path") and self.ref_policy_checkpoint_path:
-            state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device)
-            if hasattr(self.ref_policy, "module"):
-                # If wrapped by DeepSpeed
-                self.ref_policy.module.load_state_dict(state_dict)
+            try:
+                state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device)
+                if hasattr(self.ref_policy, "module"):
+                    # If wrapped by DeepSpeed
+                    self.ref_policy.module.load_state_dict(state_dict)
+                else:
+                    self.ref_policy.load_state_dict(state_dict)
+            except (OSError, RuntimeError) as err:
+                logger.warning(
+                    f"{self.rank=}: Failed to load reference policy from "
+                    f"{self.ref_policy_checkpoint_path}: {err}. Proceeding with base weights."
+                )
             else:
-                self.ref_policy.load_state_dict(state_dict)
-            logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
+                logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
-            try:
-                state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device)
-                if hasattr(self.ref_policy, "module"):
-                    # If wrapped by DeepSpeed
-                    self.ref_policy.module.load_state_dict(state_dict)
-                else:
-                    self.ref_policy.load_state_dict(state_dict)
-            except (OSError, RuntimeError) as err:
-                logger.warning(
-                    f"{self.rank=}: Failed to load reference policy from "
-                    f"{self.ref_policy_checkpoint_path}: {err}. Proceeding with base weights."
-                )
-            else:
-                self.ref_policy.load_state_dict(state_dict)
-            logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
-                logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
+            try:
+                state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device, weights_only=False)
+                if hasattr(self.ref_policy, "module"):
+                    # If wrapped by DeepSpeed
+                    self.ref_policy.module.load_state_dict(state_dict)
+                else:
+                    self.ref_policy.load_state_dict(state_dict)
+            except Exception as err:
+                logger.warning(
+                    f"{self.rank=}: Failed to load reference policy from "
+                    f"{self.ref_policy_checkpoint_path}: {err}. Proceeding with base weights."
+                )
+            else:
+                logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
-            try:
-                state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device)
-                if hasattr(self.ref_policy, "module"):
-                    # If wrapped by DeepSpeed
-                    self.ref_policy.module.load_state_dict(state_dict)
-                else:
-                    self.ref_policy.load_state_dict(state_dict)
-            except (OSError, RuntimeError) as err:
-                logger.warning(
-                    f"{self.rank=}: Failed to load reference policy from "
-                    f"{self.ref_policy_checkpoint_path}: {err}. Proceeding with base weights."
-                )
-            else:
-                self.ref_policy.load_state_dict(state_dict)
-            logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
-                logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
+            try:
+                state_dict = torch.load(self.ref_policy_checkpoint_path, map_location=self.device, weights_only=False)
+                if hasattr(self.ref_policy, "module"):
+                    # If wrapped by DeepSpeed
+                    self.ref_policy.module.load_state_dict(state_dict)
+                else:
+                    self.ref_policy.load_state_dict(state_dict)
+            except Exception as err:
+                logger.warning(
+                    f"{self.rank=}: Failed to load reference policy from "
+                    f"{self.ref_policy_checkpoint_path}: {err}. Proceeding with base weights."
+                )
+            else:
+                logger.info(f"{self.rank=}: Loaded reference policy checkpoint from {self.ref_policy_checkpoint_path}")
         self.local_metrics = MetricsTracker(max_metrics=32, device=self.device)
         return optimization_steps_done