vllm-project · Luosuu · Oct 18, 2025 · Oct 24, 2025 · Oct 24, 2025 · Oct 24, 2025
diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
@@ -104,7 +104,7 @@
         ...
 
     @abstractmethod
-    async def start_profile(self) -> None:
+    async def start_profile(self, profile_options: dict[str, Any] | None = None) -> None:
         """Start profiling the engine"""
         ...
 

@@ -1484,8 +1484,8 @@ def ensure_str(prompt: SingletonPrompt):
                 lora_request,
             )
 
-    def start_profile(self) -> None:
-        self.llm_engine.start_profile()
+    def start_profile(self, profile_options: dict[str, Any] | None = None) -> None:
+        self.llm_engine.start_profile(profile_options=profile_options)
 
     def stop_profile(self) -> None:
         self.llm_engine.stop_profile()

@@ -1201,16 +1201,32 @@ async def invocations(raw_request: Request):
     return JSONResponse(content=res.model_dump(), status_code=res.error.code)
 
 
-if envs.VLLM_TORCH_PROFILER_DIR:
-    logger.warning(
-        "Torch Profiler is enabled in the API server. This should ONLY be "
-        "used for local development!"
-    )
+if envs.VLLM_TORCH_PROFILER_DIR or envs.USE_PROTON:
+    if envs.VLLM_TORCH_PROFILER_DIR:
+        logger.warning(
+            "Torch Profiler is enabled in the API server. This should ONLY be "
+            "used for local development!"
+        )
+    if envs.USE_PROTON:
+        logger.warning(
+            "Proton profiler is enabled in the API server. This should ONLY be "
+            "used for local development!"
+        )
 
     @router.post("/start_profile")
     async def start_profile(raw_request: Request):
         logger.info("Starting profiler...")
-        await engine_client(raw_request).start_profile()
+        profile_options = None
+        try:
+            payload = await raw_request.json()
+        except json.JSONDecodeError:
+            payload = None
+        except Exception:
+            payload = None
+        else:
+            if isinstance(payload, dict):
+                profile_options = payload
-        try:
-            payload = await raw_request.json()
-        except json.JSONDecodeError:
-            payload = None
-        except Exception:
-            payload = None
-        else:
-            if isinstance(payload, dict):
-                profile_options = payload
+        try:
+            payload = await raw_request.json()
+            if isinstance(payload, dict):
+                profile_options = payload
+        except json.JSONDecodeError:
+            # It's okay if the request has no body or is not valid JSON.
+            pass
-        try:
-            payload = await raw_request.json()
-        except json.JSONDecodeError:
-            payload = None
-        except Exception:
-            payload = None
-        else:
-            if isinstance(payload, dict):
-                profile_options = payload
+        try:
+            payload = await raw_request.json()
+            if isinstance(payload, dict):
+                profile_options = payload
+        except json.JSONDecodeError:
+            # It's okay if the request has no body or is not valid JSON.
+            pass
+        await engine_client(raw_request).start_profile(profile_options=profile_options)
         logger.info("Profiler started.")
         return Response(status_code=200)
 

diff --git a/vllm/envs.py b/vllm/envs.py
@@ -93,6 +93,14 @@
     VLLM_FORCE_AOT_LOAD: bool = False
     VLLM_TORCH_PROFILER_WITH_STACK: bool = True
     VLLM_TORCH_PROFILER_WITH_FLOPS: bool = False
+    USE_PROTON: bool = False
+    PROTON_PROFILE_NAME: str | None = None
+    PROTON_PROFILE_NAME_PREFIX: str | None = None
+    PROTON_PROFILE_CONTEXT: str | None = None
+    PROTON_PROFILE_DATA: str | None = None
+    PROTON_PROFILE_BACKEND: str | None = None
+    PROTON_PROFILE_MODE: str | None = None
+    PROTON_PROFILE_HOOK: str | None = None
     VLLM_USE_TRITON_AWQ: bool = False
     VLLM_ALLOW_RUNTIME_LORA_UPDATING: bool = False
     VLLM_SKIP_P2P_CHECK: bool = False
@@ -803,6 +811,16 @@ def get_vllm_port() -> int | None:
     "VLLM_TORCH_PROFILER_WITH_FLOPS": lambda: bool(
         os.getenv("VLLM_TORCH_PROFILER_WITH_FLOPS", "0") != "0"
     ),
+    "USE_PROTON": lambda: bool(
+        os.getenv("USE_PROTON", "0").lower() not in ("0", "false")
+    ),
+    "PROTON_PROFILE_NAME": lambda: os.getenv("PROTON_PROFILE_NAME"),
+    "PROTON_PROFILE_NAME_PREFIX": lambda: os.getenv("PROTON_PROFILE_NAME_PREFIX"),
+    "PROTON_PROFILE_CONTEXT": lambda: os.getenv("PROTON_PROFILE_CONTEXT"),
+    "PROTON_PROFILE_DATA": lambda: os.getenv("PROTON_PROFILE_DATA"),
+    "PROTON_PROFILE_BACKEND": lambda: os.getenv("PROTON_PROFILE_BACKEND"),
+    "PROTON_PROFILE_MODE": lambda: os.getenv("PROTON_PROFILE_MODE"),
+    "PROTON_PROFILE_HOOK": lambda: os.getenv("PROTON_PROFILE_HOOK"),
     # If set, vLLM will use Triton implementations of AWQ.
     "VLLM_USE_TRITON_AWQ": lambda: bool(int(os.getenv("VLLM_USE_TRITON_AWQ", "0"))),
     # If set, allow loading or unloading lora adapters in runtime,