fix severe vram leak regression in auto-round format packing

wenhuach21 · web-flow · commit dd7811ef6a99 · 2025-09-23T11:48:30.000+08:00
diff --git a/auto_round/export/export_to_autoround/export.py b/auto_round/export/export_to_autoround/export.py
@@ -234,7 +234,7 @@ def pack_layer(layer_name, model, backend, device=None):
             qlayer.pack(layer, scale, device=device)
         else:
             qlayer.pack(layer, scale, zp, None, device=device)
-        qlayer.to(device)
+        qlayer.to(orig_device)
     else:
         scale = scale.to(torch.float32).t().contiguous()
         if isinstance(zp, torch.Tensor):