fix: GenAI Client(evals) - Support multiple metrics in Detailed View show method for EvaluationRun for Vertex AI GenAI SDK evals

vertex-sdk-bot · copybara-github · commit 3ac82ea8ff01 · 2025-10-21T08:59:03.000-07:00
PiperOrigin-RevId: 822139220
diff --git a/tests/unit/vertexai/genai/replays/test_get_evaluation_run.py b/tests/unit/vertexai/genai/replays/test_get_evaluation_run.py
@@ -256,7 +256,7 @@ def check_run_1957799200510967808_evaluation_item_results(
     assert isinstance(eval_case_result, types.EvalCaseResult)
     # Check the response candidate results.
     response_candidate_result = eval_case_result.response_candidate_results[0]
-    assert isinstance(response_candidate_result, types.ResponseCandidateResult)
+    assert response_candidate_result.response_index == 0
     universal_metric_result = response_candidate_result.metric_results["universal"]
     assert isinstance(universal_metric_result, types.EvalCaseMetricResult)
     assert universal_metric_result.metric_name == "universal"
diff --git a/vertexai/_genai/_evals_common.py b/vertexai/_genai/_evals_common.py
@@ -1338,28 +1338,24 @@ def _get_eval_case_result_from_eval_item(
     eval_item: types.EvaluationItem,
 ) -> types.EvalCaseResult:
     """Transforms EvaluationItem to EvalCaseResult."""
-    response_candidate_results = []
-    for candidate_index, candidate_result in enumerate(
-        eval_item.evaluation_response.candidate_results
-    ):
-        response_candidate_results.append(
-            types.ResponseCandidateResult(
-                response_index=candidate_index,
-                metric_results={
-                    candidate_result.metric: types.EvalCaseMetricResult(
-                        metric_name=candidate_result.metric,
-                        score=candidate_result.score,
-                        explanation=candidate_result.explanation,
-                        rubric_verdicts=candidate_result.rubric_verdicts,
-                        error_message=(
-                            eval_item.error.message if eval_item.error else None
-                        ),
-                    ),
-                },
+    metric_results = {}
+    if eval_item.evaluation_response.candidate_results:
+        for candidate_result in eval_item.evaluation_response.candidate_results:
+            metric_results[candidate_result.metric] = types.EvalCaseMetricResult(
+                metric_name=candidate_result.metric,
+                score=candidate_result.score,
+                explanation=candidate_result.explanation,
+                rubric_verdicts=candidate_result.rubric_verdicts,
+                error_message=(eval_item.error.message if eval_item.error else None),
             )
-        )
     return types.EvalCaseResult(
-        eval_case_index=index, response_candidate_results=response_candidate_results
+        eval_case_index=index,
+        response_candidate_results=[
+            types.ResponseCandidateResult(
+                response_index=0,
+                metric_results=metric_results,
+            )
+        ],
     )
 
 
@@ -1421,6 +1417,7 @@ def _get_eval_cases_eval_dfs_from_eval_items(
             eval_item
             and eval_item.evaluation_response
             and eval_item.evaluation_response.request
+            and eval_item.evaluation_response.candidate_results
         ):
             eval_case_results.append(
                 _get_eval_case_result_from_eval_item(index, eval_item)