PrimeIntellect-ai · willccbb · Jan 3, 2026 · Dec 29, 2025 · Jan 3, 2026 · Jan 3, 2026
diff --git a/docs/release/TRAJECTORIES.md b/docs/release/TRAJECTORIES.md
@@ -359,6 +359,8 @@ async def add_model_response(
         tokens=tokens,
         reward=None,
         advantage=None,
+        is_truncated=False,
+        trajectory_id=state["current_trajectory_id"],
         extras={},
     )
     state["trajectory"].append(trajectory_step)

diff --git a/tests/test_environment.py b/tests/test_environment.py
@@ -56,6 +56,8 @@ async def rollout(
             tokens=tokens,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         state["trajectory"].append(trajectory_step)

diff --git a/tests/test_environment_extra.py b/tests/test_environment_extra.py
@@ -67,6 +67,8 @@ async def rollout(
             tokens=tokens,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         state["trajectory"].append(trajectory_step)

diff --git a/tests/test_rlm_env.py b/tests/test_rlm_env.py
@@ -1189,6 +1189,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="sub_batch1_req1",
             extras={"is_sub_llm_call": True, "timestamp": 1.0},
         )
         sub_step2 = TrajectoryStep(
@@ -1198,6 +1200,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="sub_batch1_req2",
             extras={"is_sub_llm_call": True, "timestamp": 2.0},
         )
         rlm_env.active_rollouts[rollout_id] = {
@@ -1213,6 +1217,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="main_trajectory",
             extras={},
         )
         state = {"rollout_id": rollout_id, "trajectory": [main_step]}
@@ -1251,6 +1257,8 @@ async def test_no_prepend_when_disabled(self, mock_sandbox_client, mock_dataset)
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="sub_batch1_req1",
                 extras={"is_sub_llm_call": True, "timestamp": 1.0},
             )
             env.active_rollouts[rollout_id] = {
@@ -1265,6 +1273,8 @@ async def test_no_prepend_when_disabled(self, mock_sandbox_client, mock_dataset)
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="main_trajectory",
                 extras={},
             )
             state = {"rollout_id": rollout_id, "trajectory": [main_step]}

diff --git a/tests/test_singleturn_env.py b/tests/test_singleturn_env.py
@@ -77,6 +77,8 @@ async def test_is_completed_method(self, mock_singleturn_env):
                     tokens=None,
                     reward=None,
                     advantage=None,
+                    is_truncated=False,
+                    trajectory_id="test_trajectory",
                     extras={},
                 )
             ],
@@ -487,6 +489,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             )
         ]
@@ -514,6 +518,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             ),
             TrajectoryStep(
@@ -523,6 +529,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             ),
         ]

diff --git a/tests/test_trajectory_processing.py b/tests/test_trajectory_processing.py
@@ -110,9 +110,13 @@ def test_process_trajectory_steps_for_training():
                 completion_ids=[3, 4],
                 completion_mask=[1, 1],
                 completion_logprobs=[-0.1, -0.2],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=1.0,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         )
     ]
@@ -135,9 +139,13 @@ def test_process_trajectory_steps_for_training():
                 completion_ids=[6, 7, 8],
                 completion_mask=[1, 1, 1],
                 completion_logprobs=[-0.3, -0.4, -0.5],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=0.5,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         )
     ]
@@ -192,6 +200,8 @@ def test_process_trajectory_steps_skip_missing_tokens():
             tokens=None,
             reward=1.0,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         ),
         TrajectoryStep(
@@ -204,9 +214,13 @@ def test_process_trajectory_steps_skip_missing_tokens():
                 completion_ids=[2, 3],
                 completion_mask=[1, 1],
                 completion_logprobs=[-0.1, -0.2],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=0.5,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         ),
     ]

diff --git a/verifiers/envs/environment.py b/verifiers/envs/environment.py
@@ -6,6 +6,7 @@
 import logging
 import signal
 import time
+import uuid
 from abc import ABC, abstractmethod
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
@@ -597,6 +598,7 @@ async def init_state(
         else:
             state["oai_tools"] = []
         state["trajectory"] = []
+        state["trajectory_id"] = uuid.uuid4().hex
         state["reward"] = None
         state["metrics"] = None
         state["error"] = None

diff --git a/verifiers/envs/experimental/rlm_env.py b/verifiers/envs/experimental/rlm_env.py
@@ -939,6 +939,7 @@ async def _handle_sub_llm_request(self, request: Any) -> Any:
                         reward=None,
                         advantage=None,
                         is_truncated=is_truncated,
+                        trajectory_id=f"{batch_id}_{request_id}",
                         extras={
                             "is_sub_llm_call": True,
                             "parent_turn": parent_turn,

diff --git a/verifiers/envs/multiturn_env.py b/verifiers/envs/multiturn_env.py
@@ -85,6 +85,7 @@ async def add_model_response(
             reward=None,
             advantage=None,
             is_truncated=is_truncated,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         trajectory_step["completion"] = completion_messages

diff --git a/verifiers/types.py b/verifiers/types.py
@@ -68,6 +68,7 @@ class TrajectoryStep(TypedDict):
     reward: float | None
     advantage: float | None
     is_truncated: bool
+    trajectory_id: str
     extras: dict[str, Any]