feat: Updated Observability GenAI data format converter for JSONL

vertex-sdk-bot · copybara-github · commit 00e57debaad8 · 2025-10-13T11:34:22.000-07:00
PiperOrigin-RevId: 818756007
diff --git a/tests/unit/vertexai/genai/test_evals.py b/tests/unit/vertexai/genai/test_evals.py
@@ -2036,15 +2036,15 @@ def test_convert_simple_request_response(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
+                ),
             }
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -2068,19 +2068,21 @@ def test_convert_with_system_instruction(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
-                "system_instruction": {
-                    "role": "user",
-                    "parts": [{"content": "Be helpful", "type": "text"}],
-                },
+                ),
+                "system_instruction": json.dumps(
+                    {
+                        "role": "user",
+                        "parts": [{"content": "Be helpful", "type": "text"}],
+                    }
+                ),
             }
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -2093,22 +2095,28 @@ def test_convert_with_conversation_history(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
-                    {"role": "user", "parts": [{"content": "Hello", "type": "text"}]},
-                    {"role": "system", "parts": [{"content": "Hi", "type": "text"}]},
+                "request": json.dumps(
+                    {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
+                )
+                + "\n"
+                + json.dumps(
+                    {"role": "system", "parts": [{"content": "Hi", "type": "text"}]}
+                )
+                + "\n"
+                + json.dumps(
                     {
                         "role": "user",
                         "parts": [
                             {"content": "What's the meaning of life?", "type": "text"}
                         ],
-                    },
-                ],
-                "response": [
+                    }
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "42.", "type": "text"}],
                     }
-                ],
+                ),
             }
         ]
 
@@ -2139,27 +2147,27 @@ def test_convert_multiple_request_response(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
+                ),
             },
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Goodbye", "type": "text"}]}
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Bye", "type": "text"}],
                     }
-                ],
+                ),
             },
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -2187,7 +2195,7 @@ def test_convert_skips_unknown_part_type(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {
                         "role": "user",
                         "parts": [
@@ -2196,13 +2204,13 @@ def test_convert_skips_unknown_part_type(self):
                             {"content": "Hello", "type": "text"},
                         ],
                     }
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
+                ),
             }
         ]
 
@@ -2217,12 +2225,12 @@ def test_convert_skips_missing_request(self):
         raw_data = [
             {
                 "format": "observability",
-                "response": [
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
+                ),
             }
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -2232,9 +2240,9 @@ def test_convert_skips_missing_response(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
-                ],
+                ),
             }
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -2244,7 +2252,7 @@ def test_convert_tool_call_parts(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {
                         "role": "user",
                         "parts": [
@@ -2256,8 +2264,8 @@ def test_convert_tool_call_parts(self):
                             }
                         ],
                     }
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [
@@ -2268,7 +2276,7 @@ def test_convert_tool_call_parts(self):
                             }
                         ],
                     }
-                ],
+                ),
             }
         ]
         result_dataset = self.converter.convert(raw_data)
@@ -3433,15 +3441,15 @@ def test_auto_detect_observability_schema(self):
         raw_data = [
             {
                 "format": "observability",
-                "request": [
+                "request": json.dumps(
                     {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}
-                ],
-                "response": [
+                ),
+                "response": json.dumps(
                     {
                         "role": "system",
                         "parts": [{"content": "Hi", "type": "text"}],
                     }
-                ],
+                ),
             }
         ]
         assert (
diff --git a/vertexai/_genai/_observability_data_converter.py b/vertexai/_genai/_observability_data_converter.py
@@ -28,6 +28,26 @@
 logger = logging.getLogger("vertexai_genai._observability_data_converters")
 
 
+def _load_jsonl(data: Any, case_id: str) -> list[dict[Any, Any]]:
+    """Parses the raw JSONL data into a list of dict possible."""
+    if isinstance(data, str):
+        json_list = []
+        for line in data.splitlines():
+            loaded_json = json.loads(line)
+            if not isinstance(loaded_json, dict):
+                raise TypeError(
+                    f"Decoded JSON payload is not a dict for case "
+                    f"{case_id}. Type found: {type(loaded_json).__name__}"
+                )
+            json_list.append(loaded_json)
+        return json_list
+    else:
+        raise TypeError(
+            f"Payload is not a JSONL string for case {case_id}. Type "
+            f"found: {type(data).__name__}"
+        )
+
+
 class ObservabilityDataConverter(_evals_utils.EvalDataConverter):
     """Converter for dataset in GCP Observability GenAI format."""
 
@@ -131,44 +151,6 @@ def _parse_messages(
             reference=None,
         )
 
-    def _load_json_dict(self, data: Any, case_id: str) -> dict[Any, str]:
-        """Parses the raw data into a dict if possible."""
-        if isinstance(data, str):
-            loaded_json = json.loads(data)
-            if isinstance(loaded_json, dict):
-                return loaded_json
-            else:
-                raise TypeError(
-                    f"Decoded JSON payload is not a dictionary for case "
-                    f"{case_id}. Type found: {type(loaded_json).__name__}"
-                )
-        elif isinstance(data, dict):
-            return data
-        else:
-            raise TypeError(
-                f"Payload is not a dictionary for case {case_id}. Type found: "
-                f"{type(data).__name__}"
-            )
-
-    def _load_json_list(self, data: Any, case_id: str) -> list[Any]:
-        """Parses the raw data into a list if possible."""
-        if isinstance(data, str):
-            loaded_json = json.loads(data)
-            if isinstance(loaded_json, list):
-                return loaded_json
-            else:
-                raise TypeError(
-                    f"Decoded JSON payload is not a list for case "
-                    f"{case_id}. Type found: {type(loaded_json).__name__}"
-                )
-        elif isinstance(data, list):
-            return data
-        else:
-            raise TypeError(
-                f"Payload is not a list for case {case_id}. Type found: "
-                f"{type(data).__name__}"
-            )
-
     @override
     def convert(self, raw_data: list[dict[str, Any]]) -> types.EvaluationDataset:
         """Converts a list of GCP Observability GenAI cases into an EvaluationDataset."""
@@ -185,15 +167,16 @@ def convert(self, raw_data: list[dict[str, Any]]) -> types.EvaluationDataset:
                 continue
 
             request_data = case.get("request", [])
-            request_list = self._load_json_list(request_data, eval_case_id)
+            request_list = _load_jsonl(request_data, eval_case_id)
 
             response_data = case.get("response", [])
-            response_list = self._load_json_list(response_data, eval_case_id)
+            response_list = _load_jsonl(response_data, eval_case_id)
 
             system_dict = None
             if "system_instruction" in case:
                 system_data = case.get("system_instruction", {})
-                system_dict = self._load_json_dict(system_data, eval_case_id)
+                system_list = _load_jsonl(system_data, eval_case_id)
+                system_dict = system_list[0] if system_list else {}
 
             eval_case = self._parse_messages(
                 eval_case_id, request_list, response_list, system_dict

Original file line number	Diff line number	Diff line change
`@@ -2036,15 +2036,15 @@ def test_convert_simple_request_response(self):`
`2036`	`2036`	`raw_data = [`
`2037`	`2037`	`{`
`2038`	`2038`	`"format": "observability",`
`2039`		`- "request": [`
	`2039`	`+ "request": json.dumps(`
`2040`	`2040`	`{"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
`2041`		`- ],`
`2042`		`- "response": [`
	`2041`	`+ ),`
	`2042`	`+ "response": json.dumps(`
`2043`	`2043`	`{`
`2044`	`2044`	`"role": "system",`
`2045`	`2045`	`"parts": [{"content": "Hi", "type": "text"}],`
`2046`	`2046`	`}`
`2047`		`- ],`
	`2047`	`+ ),`
`2048`	`2048`	`}`
`2049`	`2049`	`]`
`2050`	`2050`	`result_dataset = self.converter.convert(raw_data)`
`@@ -2068,19 +2068,21 @@ def test_convert_with_system_instruction(self):`
`2068`	`2068`	`raw_data = [`
`2069`	`2069`	`{`
`2070`	`2070`	`"format": "observability",`
`2071`		`- "request": [`
	`2071`	`+ "request": json.dumps(`
`2072`	`2072`	`{"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
`2073`		`- ],`
`2074`		`- "response": [`
	`2073`	`+ ),`
	`2074`	`+ "response": json.dumps(`
`2075`	`2075`	`{`
`2076`	`2076`	`"role": "system",`
`2077`	`2077`	`"parts": [{"content": "Hi", "type": "text"}],`
`2078`	`2078`	`}`
`2079`		`- ],`
`2080`		`- "system_instruction": {`
`2081`		`- "role": "user",`
`2082`		`- "parts": [{"content": "Be helpful", "type": "text"}],`
`2083`		`- },`
	`2079`	`+ ),`
	`2080`	`+ "system_instruction": json.dumps(`
	`2081`	`+ {`
	`2082`	`+ "role": "user",`
	`2083`	`+ "parts": [{"content": "Be helpful", "type": "text"}],`
	`2084`	`+ }`
	`2085`	`+ ),`
`2084`	`2086`	`}`
`2085`	`2087`	`]`
`2086`	`2088`	`result_dataset = self.converter.convert(raw_data)`
`@@ -2093,22 +2095,28 @@ def test_convert_with_conversation_history(self):`
`2093`	`2095`	`raw_data = [`
`2094`	`2096`	`{`
`2095`	`2097`	`"format": "observability",`
`2096`		`- "request": [`
`2097`		`- {"role": "user", "parts": [{"content": "Hello", "type": "text"}]},`
`2098`		`- {"role": "system", "parts": [{"content": "Hi", "type": "text"}]},`
	`2098`	`+ "request": json.dumps(`
	`2099`	`+ {"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
	`2100`	`+ )`
	`2101`	`+ + "\n"`
	`2102`	`+ + json.dumps(`
	`2103`	`+ {"role": "system", "parts": [{"content": "Hi", "type": "text"}]}`
	`2104`	`+ )`
	`2105`	`+ + "\n"`
	`2106`	`+ + json.dumps(`
`2099`	`2107`	`{`
`2100`	`2108`	`"role": "user",`
`2101`	`2109`	`"parts": [`
`2102`	`2110`	`{"content": "What's the meaning of life?", "type": "text"}`
`2103`	`2111`	`],`
`2104`		`- },`
`2105`		`- ],`
`2106`		`- "response": [`
	`2112`	`+ }`
	`2113`	`+ ),`
	`2114`	`+ "response": json.dumps(`
`2107`	`2115`	`{`
`2108`	`2116`	`"role": "system",`
`2109`	`2117`	`"parts": [{"content": "42.", "type": "text"}],`
`2110`	`2118`	`}`
`2111`		`- ],`
	`2119`	`+ ),`
`2112`	`2120`	`}`
`2113`	`2121`	`]`
`2114`	`2122`
`@@ -2139,27 +2147,27 @@ def test_convert_multiple_request_response(self):`
`2139`	`2147`	`raw_data = [`
`2140`	`2148`	`{`
`2141`	`2149`	`"format": "observability",`
`2142`		`- "request": [`
	`2150`	`+ "request": json.dumps(`
`2143`	`2151`	`{"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
`2144`		`- ],`
`2145`		`- "response": [`
	`2152`	`+ ),`
	`2153`	`+ "response": json.dumps(`
`2146`	`2154`	`{`
`2147`	`2155`	`"role": "system",`
`2148`	`2156`	`"parts": [{"content": "Hi", "type": "text"}],`
`2149`	`2157`	`}`
`2150`		`- ],`
	`2158`	`+ ),`
`2151`	`2159`	`},`
`2152`	`2160`	`{`
`2153`	`2161`	`"format": "observability",`
`2154`		`- "request": [`
	`2162`	`+ "request": json.dumps(`
`2155`	`2163`	`{"role": "user", "parts": [{"content": "Goodbye", "type": "text"}]}`
`2156`		`- ],`
`2157`		`- "response": [`
	`2164`	`+ ),`
	`2165`	`+ "response": json.dumps(`
`2158`	`2166`	`{`
`2159`	`2167`	`"role": "system",`
`2160`	`2168`	`"parts": [{"content": "Bye", "type": "text"}],`
`2161`	`2169`	`}`
`2162`		`- ],`
	`2170`	`+ ),`
`2163`	`2171`	`},`
`2164`	`2172`	`]`
`2165`	`2173`	`result_dataset = self.converter.convert(raw_data)`
`@@ -2187,7 +2195,7 @@ def test_convert_skips_unknown_part_type(self):`
`2187`	`2195`	`raw_data = [`
`2188`	`2196`	`{`
`2189`	`2197`	`"format": "observability",`
`2190`		`- "request": [`
	`2198`	`+ "request": json.dumps(`
`2191`	`2199`	`{`
`2192`	`2200`	`"role": "user",`
`2193`	`2201`	`"parts": [`
`@@ -2196,13 +2204,13 @@ def test_convert_skips_unknown_part_type(self):`
`2196`	`2204`	`{"content": "Hello", "type": "text"},`
`2197`	`2205`	`],`
`2198`	`2206`	`}`
`2199`		`- ],`
`2200`		`- "response": [`
	`2207`	`+ ),`
	`2208`	`+ "response": json.dumps(`
`2201`	`2209`	`{`
`2202`	`2210`	`"role": "system",`
`2203`	`2211`	`"parts": [{"content": "Hi", "type": "text"}],`
`2204`	`2212`	`}`
`2205`		`- ],`
	`2213`	`+ ),`
`2206`	`2214`	`}`
`2207`	`2215`	`]`
`2208`	`2216`
`@@ -2217,12 +2225,12 @@ def test_convert_skips_missing_request(self):`
`2217`	`2225`	`raw_data = [`
`2218`	`2226`	`{`
`2219`	`2227`	`"format": "observability",`
`2220`		`- "response": [`
	`2228`	`+ "response": json.dumps(`
`2221`	`2229`	`{`
`2222`	`2230`	`"role": "system",`
`2223`	`2231`	`"parts": [{"content": "Hi", "type": "text"}],`
`2224`	`2232`	`}`
`2225`		`- ],`
	`2233`	`+ ),`
`2226`	`2234`	`}`
`2227`	`2235`	`]`
`2228`	`2236`	`result_dataset = self.converter.convert(raw_data)`
`@@ -2232,9 +2240,9 @@ def test_convert_skips_missing_response(self):`
`2232`	`2240`	`raw_data = [`
`2233`	`2241`	`{`
`2234`	`2242`	`"format": "observability",`
`2235`		`- "request": [`
	`2243`	`+ "request": json.dumps(`
`2236`	`2244`	`{"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
`2237`		`- ],`
	`2245`	`+ ),`
`2238`	`2246`	`}`
`2239`	`2247`	`]`
`2240`	`2248`	`result_dataset = self.converter.convert(raw_data)`
`@@ -2244,7 +2252,7 @@ def test_convert_tool_call_parts(self):`
`2244`	`2252`	`raw_data = [`
`2245`	`2253`	`{`
`2246`	`2254`	`"format": "observability",`
`2247`		`- "request": [`
	`2255`	`+ "request": json.dumps(`
`2248`	`2256`	`{`
`2249`	`2257`	`"role": "user",`
`2250`	`2258`	`"parts": [`
`@@ -2256,8 +2264,8 @@ def test_convert_tool_call_parts(self):`
`2256`	`2264`	`}`
`2257`	`2265`	`],`
`2258`	`2266`	`}`
`2259`		`- ],`
`2260`		`- "response": [`
	`2267`	`+ ),`
	`2268`	`+ "response": json.dumps(`
`2261`	`2269`	`{`
`2262`	`2270`	`"role": "system",`
`2263`	`2271`	`"parts": [`
`@@ -2268,7 +2276,7 @@ def test_convert_tool_call_parts(self):`
`2268`	`2276`	`}`
`2269`	`2277`	`],`
`2270`	`2278`	`}`
`2271`		`- ],`
	`2279`	`+ ),`
`2272`	`2280`	`}`
`2273`	`2281`	`]`
`2274`	`2282`	`result_dataset = self.converter.convert(raw_data)`
`@@ -3433,15 +3441,15 @@ def test_auto_detect_observability_schema(self):`
`3433`	`3441`	`raw_data = [`
`3434`	`3442`	`{`
`3435`	`3443`	`"format": "observability",`
`3436`		`- "request": [`
	`3444`	`+ "request": json.dumps(`
`3437`	`3445`	`{"role": "user", "parts": [{"content": "Hello", "type": "text"}]}`
`3438`		`- ],`
`3439`		`- "response": [`
	`3446`	`+ ),`
	`3447`	`+ "response": json.dumps(`
`3440`	`3448`	`{`
`3441`	`3449`	`"role": "system",`
`3442`	`3450`	`"parts": [{"content": "Hi", "type": "text"}],`
`3443`	`3451`	`}`
`3444`		`- ],`
	`3452`	`+ ),`
`3445`	`3453`	`}`
`3446`	`3454`	`]`
`3447`	`3455`	`assert (`