Fixed some bugs

UNIDY2002 · UNIDY2002 · commit 65a0b1f42283 · 2025-10-16T21:31:52.000+08:00
diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
@@ -258,13 +258,16 @@ def __init__(
         self.local_size = get_int_env_var("LOCAL_SIZE", 0)
 
         for ranks in group_ranks:
+            from mooncake.ep import MooncakeBackendOptions
             device_group = torch.distributed.new_group(
-                ranks, backend=torch_distributed_backend
+                ranks, backend=torch_distributed_backend, pg_options=MooncakeBackendOptions(active_ranks) if active_ranks is not None else None
             )
             # a cpu_group to allow direct coordination between processes through
             # the CPU. The backend is chosen based on `torch_distributed_backend`
             if "mooncake" in torch_distributed_backend:
-                cpu_group = torch.distributed.new_group(ranks, backend="mooncake-cpu")
+                cpu_group = torch.distributed.new_group(
+                    ranks, backend="mooncake-cpu", pg_options=MooncakeBackendOptions(active_ranks_cpu) if active_ranks_cpu is not None else None
+                )
             else:
                 cpu_group = torch.distributed.new_group(
                     ranks, backend="gloo", timeout=gloo_timeout
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
@@ -2274,6 +2274,7 @@ def run_batch(
             batch_result.extend_logprob_start_len_per_req = (
                 extend_logprob_start_len_per_req
             )
+            self.send_to_tokenizer.send_pyobj(Ranks(status=get_tp_active_ranks_cpu().tolist()))
             return batch_result
         else:  # embedding or reward model
             model_worker_batch = batch.get_model_worker_batch()

Original file line number	Diff line number	Diff line change
`@@ -2274,6 +2274,7 @@ def run_batch(`
`2274`	`2274`	`batch_result.extend_logprob_start_len_per_req = (`
`2275`	`2275`	`extend_logprob_start_len_per_req`
`2276`	`2276`	`)`
	`2277`	`+ self.send_to_tokenizer.send_pyobj(Ranks(status=get_tp_active_ranks_cpu().tolist()))`
`2277`	`2278`	`return batch_result`
`2278`	`2279`	`else: # embedding or reward model`
`2279`	`2280`	`model_worker_batch = batch.get_model_worker_batch()`