Adapted to pytest framework

Menglths · Menglths · commit f6b84d4258ae · 2025-11-24T16:13:34.000+08:00
diff --git a/test/common/llmperf/run_inference.py b/test/common/llmperf/run_inference.py
@@ -23,7 +23,7 @@ def run_test_cases(
     timestamp_dir,
     server_url,
     tokenizer_path,
-    hit_rate
+    hit_rate,
 ):
     print(f"[INFO] Total {len(mean_input_tokens)} test cases to be executed")
     all_summaries = []
@@ -35,20 +35,23 @@ def run_test_cases(
     env.pop("https_proxy", None)
 
     for i, (
-            mean_input,
-            mean_output,
-            max_completed,
-            concurrent,
-            additional_sampling_params,
-            hit_rate_val
-    ) in enumerate(zip(
-        mean_input_tokens,
-        mean_output_tokens,
-        max_num_completed_requests,
-        concurrent_requests,
+        mean_input,
+        mean_output,
+        max_completed,
+        concurrent,
         additional_sampling_params,
-        hit_rate
-    ), start=1):
+        hit_rate_val,
+    ) in enumerate(
+        zip(
+            mean_input_tokens,
+            mean_output_tokens,
+            max_num_completed_requests,
+            concurrent_requests,
+            additional_sampling_params,
+            hit_rate,
+        ),
+        start=1,
+    ):
         # for i, case in enumerate(mean_input_tokens):
         print(f"\n>>> Executing test case {i} <<<")
         reset_prefill_cache(env, server_url)
@@ -130,12 +133,13 @@ def run_test_cases(
 
 
 def inference_results(
-        mean_input_tokens,
-        mean_output_tokens,
-        max_num_completed_requests,
-        concurrent_requests,
-        additional_sampling_params,
-        hit_rate):
+    mean_input_tokens,
+    mean_output_tokens,
+    max_num_completed_requests,
+    concurrent_requests,
+    additional_sampling_params,
+    hit_rate,
+):
     config_file = Path(__file__).parent.parent.parent / "config.yaml"
     print("[INFO] Initialization complete, starting main process")
     print(f"[INFO] Reading configuration file: {config_file}")
@@ -144,8 +148,12 @@ def inference_results(
         llm_api = config.get("llm_connection", {}).get("llm_api", "openai")
         model = config.get("llm_connection", {}).get("model", "")
         test_timeout_s = config.get("llm_connection", {}).get("test_timeout_s", 60000)
-        stddev_input_tokens = config.get("llm_connection", {}).get("stddev_input_tokens", 0)
-        stddev_output_tokens = config.get("llm_connection", {}).get("stddev_output_tokens", 0)
+        stddev_input_tokens = config.get("llm_connection", {}).get(
+            "stddev_input_tokens", 0
+        )
+        stddev_output_tokens = config.get("llm_connection", {}).get(
+            "stddev_output_tokens", 0
+        )
         timestamp_dir = Path("results")
         timestamp_dir.mkdir(parents=True, exist_ok=True)
         server_url = config.get("llm_connection", {}).get("server_url", "")
@@ -166,12 +174,12 @@ def inference_results(
             timestamp_dir,
             server_url,
             tokenizer_path,
-            hit_rate
+            hit_rate,
         )
         total = len(mean_input_tokens)
         print(
             f"\n[INFO] All tests completed! Success: {total - len(failed_cases)}/{total}"
         )
         if failed_cases:
             print(f"[WARN] Failed case indices: {failed_cases}")
-    return all_summaries
+    return all_summaries
diff --git a/test/common/llmperf/utils/openai_chat_completions_client.py b/test/common/llmperf/utils/openai_chat_completions_client.py
@@ -11,12 +11,13 @@
 from common.llmperf.utils.models import RequestConfig
 
 config_file = Path(__file__).parent.parent.parent.parent / "config.yaml"
-with open(config_file, 'r', encoding='utf-8') as f:
+with open(config_file, "r", encoding="utf-8") as f:
     config = yaml.safe_load(f)
 stream = config.get("llm_connection", {}).get("stream", True)
 ignore_eos = config.get("llm_connection", {}).get("ignore_eos", True)
 timeout = config.get("llm_connection", {}).get("timeout", 180)
 
+
 class OpenAIChatCompletionsClient:
     """
     used for sending HTTP requests, receiving token streams, measuring latency, etc.
diff --git a/test/suites/E2E/test_uc_performance.py b/test/suites/E2E/test_uc_performance.py
@@ -2,6 +2,7 @@
 from common.capture_utils import export_vars
 from common.llmperf.run_inference import inference_results
 
+
 @pytest.mark.parametrize("mean_input_tokens", [[2000, 3000]])
 @pytest.mark.parametrize("mean_output_tokens", [[200, 500]])
 @pytest.mark.parametrize("max_num_completed_requests", [[8, 4]])
@@ -10,21 +11,22 @@
 @pytest.mark.parametrize("hit_rate", [[0, 50]])
 @pytest.mark.feature("uc_performance_test")
 @export_vars
-
 def test_performance(
-        mean_input_tokens,
-        mean_output_tokens,
-        max_num_completed_requests,
-        concurrent_requests,
-        additional_sampling_params,
-        hit_rate):
+    mean_input_tokens,
+    mean_output_tokens,
+    max_num_completed_requests,
+    concurrent_requests,
+    additional_sampling_params,
+    hit_rate,
+):
     all_summaries = inference_results(
         mean_input_tokens,
         mean_output_tokens,
         max_num_completed_requests,
         concurrent_requests,
         additional_sampling_params,
-        hit_rate)
+        hit_rate,
+    )
     failed_cases = []
 
     value_lists = {