emit predicted and actual ttft tpot in body

kaushikmitr · BenjaminBraunDev · commit 075d45873e90 · 2025-08-14T19:20:47.000Z
diff --git a/config/manifests/inferencepool-resources.yaml b/config/manifests/inferencepool-resources.yaml
@@ -17,6 +17,7 @@ data:
   LATENCY_TPOT_MODEL_PATH: "/models/tpot.joblib"
   LATENCY_TTFT_SCALER_PATH: "/models/ttft_scaler.joblib"
   LATENCY_TPOT_SCALER_PATH: "/models/tpot_scaler.joblib"
+  LATENCY_MAX_TRAINING_DATA_SIZE_PER_BUCKET: "5000"
 
 ---
 apiVersion: inference.networking.k8s.io/v1
diff --git a/pkg/epp/handlers/request.go b/pkg/epp/handlers/request.go
@@ -108,7 +108,9 @@ func (s *StreamingServer) generateRequestHeaderResponse(reqCtx *RequestContext)
 						SetHeaders: s.generateHeaders(reqCtx),
 					},
 				},
+				
 			},
+			
 		},
 		DynamicMetadata: s.generateMetadata(reqCtx.TargetEndpoint),
 	}
diff --git a/pkg/epp/handlers/response.go b/pkg/epp/handlers/response.go
@@ -22,7 +22,10 @@ import (
 	"strings"
 
 	configPb "github.com/envoyproxy/go-control-plane/envoy/config/core/v3"
+	filterPb "github.com/envoyproxy/go-control-plane/envoy/extensions/filters/http/ext_proc/v3"
 	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
+	"github.com/go-logr/logr"
+
 	"sigs.k8s.io/controller-runtime/pkg/log"
 
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/metrics"
@@ -60,7 +63,7 @@ func (s *StreamingServer) HandleResponseBody(ctx context.Context, reqCtx *Reques
 	// will add the processing for streaming case.
 	reqCtx.ResponseComplete = true
 
-	reqCtx.respBodyResp = generateResponseBodyResponses(responseBytes, true)
+	reqCtx.respBodyResp = generateResponseBodyResponses(responseBytes, true, reqCtx, logger)
 	return reqCtx, nil
 }
 
@@ -75,12 +78,11 @@ func (s *StreamingServer) HandleResponseBodyModelStreaming(ctx context.Context,
 	s.director.HandleResponseBodyChunk(ctx, reqCtx)
 }
 
-
 // The function is to handle streaming response if the modelServer is streaming.
 func (s *StreamingServer) HandleResponseTrailers(
 	ctx context.Context,
 	reqCtx *RequestContext,
-)  (*RequestContext, error) {
+) (*RequestContext, error) {
 
 	return s.director.HandleResponseTrailers(ctx, reqCtx)
 }
@@ -110,6 +112,9 @@ func (s *StreamingServer) generateResponseHeaderResponse(reqCtx *RequestContext)
 				},
 			},
 		},
+		ModeOverride: &filterPb.ProcessingMode{
+			ResponseTrailerMode: filterPb.ProcessingMode_SEND,
+		},
 	}
 }
 
@@ -118,29 +123,95 @@ func (s *StreamingServer) generateResponseTrailerResponse(reqCtx *RequestContext
 	return &extProcPb.ProcessingResponse{
 		Response: &extProcPb.ProcessingResponse_ResponseTrailers{
 			ResponseTrailers: &extProcPb.TrailersResponse{
-					HeaderMutation: &extProcPb.HeaderMutation{
-						// Correct field or remove if unnecessary
-						SetHeaders: s.generateResponseTrailers(reqCtx),
-					},
+				HeaderMutation: &extProcPb.HeaderMutation{
+					// Correct field or remove if unnecessary
+					SetHeaders: s.generateResponseTrailers(reqCtx),
 				},
 			},
-		}
+		},
 	}
+}
+
+func generateResponseBodyResponses(
+	responseBodyBytes []byte,
+	setEoS bool,
+	reqCtx *RequestContext,
+	logger logr.Logger,
+) []*extProcPb.ProcessingResponse {
+	if reqCtx != nil && reqCtx.ModelServerStreaming {
+
+		raw := string(responseBodyBytes)
+		events := strings.Split(raw, "\n\n")
 
-func generateResponseBodyResponses(responseBodyBytes []byte, setEoS bool) []*extProcPb.ProcessingResponse {
-	commonResponses := buildCommonResponses(responseBodyBytes, bodyByteLimit, setEoS)
-	responses := []*extProcPb.ProcessingResponse{}
-	for _, commonResp := range commonResponses {
-		resp := &extProcPb.ProcessingResponse{
-			Response: &extProcPb.ProcessingResponse_ResponseBody{
-				ResponseBody: &extProcPb.BodyResponse{
-					Response: commonResp,
+		var rebuilt strings.Builder
+		for _, ev := range events {
+			if !strings.HasPrefix(ev, "data: ") {
+				continue
+			}
+			payload := strings.TrimPrefix(ev, "data: ")
+			if payload == "[DONE]" {
+				rebuilt.WriteString("data: [DONE]\n\n")
+				continue
+			}
+
+			// Try to unmarshal only the JSON
+			var obj map[string]interface{}
+			if err := json.Unmarshal([]byte(payload), &obj); err != nil {
+				logger.Error(err, "failed to unmarshal SSE payload", "payload", payload)
+			} else {
+				if usage, ok := obj["usage"].(map[string]interface{}); ok && usage != nil {
+					usage["ttft_ms"] = reqCtx.TTFT
+					usage["predicted_ttft_ms"] = reqCtx.PredictedTTFT
+					usage["tpot_observations_ms"] = reqCtx.TPOTObservations
+					usage["predicted_tpot_observations_ms"] = reqCtx.PredictedTPOTObservations
+					usage["avg_tpot_ms"] = reqCtx.AvgTPOT
+					usage["avg_predicted_tpot_ms"] = reqCtx.AvgPredictedTPOT
+				}
+				if mod, err := json.Marshal(obj); err != nil {
+					logger.Error(err, "failed to re-marshal modified JSON", "obj", obj)
+				} else {
+					payload = string(mod)
+				}
+			}
+
+			// Re-attach SSE prefix
+			rebuilt.WriteString("data: ")
+			rebuilt.WriteString(payload)
+			rebuilt.WriteString("\n\n")
+		}
+
+		// Feed into your existing chunker
+		modified := []byte(rebuilt.String())
+		commonResponses := buildCommonResponses(modified, bodyByteLimit, setEoS)
+
+		// Wrap as ProcessingResponses
+		out := make([]*extProcPb.ProcessingResponse, 0, len(commonResponses))
+		for _, cr := range commonResponses {
+			out = append(out, &extProcPb.ProcessingResponse{
+				Response: &extProcPb.ProcessingResponse_ResponseBody{
+					ResponseBody: &extProcPb.BodyResponse{
+						Response: cr,
+					},
 				},
-			},
+			})
 		}
-		responses = append(responses, resp)
+		return out
+	} else {
+		commonResponses := buildCommonResponses(responseBodyBytes, bodyByteLimit, setEoS)
+		responses := []*extProcPb.ProcessingResponse{}
+		for _, commonResp := range commonResponses {
+			resp := &extProcPb.ProcessingResponse{
+				Response: &extProcPb.ProcessingResponse_ResponseBody{
+					ResponseBody: &extProcPb.BodyResponse{
+						Response: commonResp,
+					},
+				},
+			}
+			responses = append(responses, resp)
+		}
+		return responses
 	}
-	return responses
+
 }
 
 func (s *StreamingServer) generateResponseHeaders(reqCtx *RequestContext) []*configPb.HeaderValueOption {
@@ -180,7 +251,7 @@ func (s *StreamingServer) generateResponseTrailers(reqCtx *RequestContext) []*co
 	}
 
 	// include all headers
-	for key, value := range reqCtx.Response.Trailers{
+	for key, value := range reqCtx.Response.Trailers {
 		trailers = append(trailers, &configPb.HeaderValueOption{
 			Header: &configPb.HeaderValue{
 				Key:      key,
diff --git a/pkg/epp/handlers/server.go b/pkg/epp/handlers/server.go
@@ -106,11 +106,13 @@ type RequestContext struct {
 	RequestState         StreamRequestState
 	ModelServerStreaming bool
 
-	TTFT                      float64
-	PredictedTTFT             float64
-	PredictedTPOTObservations []float64
+	TTFT          float64
+	PredictedTTFT float64
 
-	TPOTObservations []float64
+	PredictedTPOTObservations []float64
+	TPOTObservations          []float64
+	AvgTPOT                   float64
+	AvgPredictedTPOT          float64
 
 	TokenSampler *requtil.TokenSampler
 
@@ -298,18 +300,21 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 					metrics.RecordResponseSizes(reqCtx.IncomingModelName, reqCtx.TargetModelName, reqCtx.ResponseSize)
 
 					if s.director.IsPredictorAvailable() {
-						var sumActual, sumPred float64
-						for _, actual := range reqCtx.TPOTObservations {
-							sumActual += actual
+						// var sumActual, sumPred float64
+						// for _, actual := range reqCtx.TPOTObservations {
+						// 	sumActual += actual
 
-						}
-						for _, prediction := range reqCtx.PredictedTPOTObservations {
-							sumPred += prediction
+						// }
+						// for _, prediction := range reqCtx.PredictedTPOTObservations {
+						// 	sumPred += prediction
 
-						}
+						// }
 
-						avgActual := sumActual / float64(len(reqCtx.TPOTObservations))
-						avgPred := sumPred / float64(len(reqCtx.PredictedTPOTObservations))
+						// avgActual := sumActual / float64(len(reqCtx.TPOTObservations))
+						// avgPred := sumPred / float64(len(reqCtx.PredictedTPOTObservations))
+
+						// reqCtx.AvgTPOT = avgActual
+						// reqCtx.AvgPredictedTPOT = avgPred
 
 						// Compute MAPE for TTFT
 						mapeTTFT := 0.0
@@ -324,19 +329,19 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 						}
 
 						mapeTPOT := 0.0
-						if avgActual > 0 {
-							mapeTPOT = math.Abs((avgActual-avgPred)/avgActual) * 100
-							logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTPOT", avgActual, "avgPredictedTPOT", avgPred)
+						if reqCtx.AvgTPOT > 0 {
+							mapeTPOT = math.Abs((reqCtx.AvgTPOT-reqCtx.AvgPredictedTPOT)/reqCtx.AvgTPOT) * 100
+							logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTPOT", reqCtx.AvgTPOT, "avgPredictedTPOT", reqCtx.AvgPredictedTPOT)
 							logger.V(logutil.DEBUG).Info("MAPE TPOT computed", "mapeTPOT%", mapeTPOT)
-							metrics.RecordRequestTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, avgActual/1000)
-							metrics.RecordRequestPredictedTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, avgPred/1000)
+							metrics.RecordRequestTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgTPOT/1000)
+							metrics.RecordRequestPredictedTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgPredictedTPOT/1000)
 							metrics.RecordRequestTPOTPredictionMape(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, mapeTPOT)
 						}
 					}
 
 				}
 
-				reqCtx.respBodyResp = generateResponseBodyResponses(v.ResponseBody.Body, v.ResponseBody.EndOfStream)
+				reqCtx.respBodyResp = generateResponseBodyResponses(v.ResponseBody.Body, v.ResponseBody.EndOfStream, reqCtx, logger)
 			} else {
 				body = append(body, v.ResponseBody.Body...)
 
@@ -349,12 +354,8 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 					var responseErr error
 					responseErr = json.Unmarshal(body, &responseBody)
 					if responseErr != nil {
-						if logger.V(logutil.DEBUG).Enabled() {
-							logger.V(logutil.DEBUG).Error(responseErr, "Error unmarshalling request body", "body", string(body))
-						} else {
-							logger.V(logutil.DEFAULT).Error(responseErr, "Error unmarshalling request body", "body", string(body))
-						}
-						reqCtx.respBodyResp = generateResponseBodyResponses(body, true)
+						logger.V(logutil.DEFAULT).Error(responseErr, "Error unmarshaling request body", "body", string(body))
+						reqCtx.respBodyResp = generateResponseBodyResponses(body, true, reqCtx, logger)
 						break
 					}
 
@@ -375,7 +376,7 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 				}
 			}
 		case *extProcPb.ProcessingRequest_ResponseTrailers:
-			logger.V(logutil.DEBUG).Info("Processing response trailers", "trailers", v.ResponseTrailers.Trailers)
+			logger.V(logutil.DEFAULT).Info("Processing response trailers", "trailers", v.ResponseTrailers.Trailers)
 			if reqCtx.ModelServerStreaming {
 
 				var trailerErr error
diff --git a/pkg/epp/latencypredictorasync/latencypredictor_async_test.go b/pkg/epp/latencypredictorasync/latencypredictor_async_test.go
@@ -281,7 +281,7 @@ func testPredictionPerformance(t *testing.T, ctx context.Context, predictor *Pre
 
 	// Test multiple predictions and measure time
 	const numTests = 10
-	const maxDurationMs = 500
+	const avgDurationMs = 250
 
 	var totalDuration time.Duration
 	var maxSingleDuration time.Duration
@@ -314,10 +314,6 @@ func testPredictionPerformance(t *testing.T, ctx context.Context, predictor *Pre
 		t.Logf("Prediction %d: %.2fms - TTFT: %.1fms, TPOT: %.1fms", 
 			i+1, durationMs, response.TTFT, response.TPOT)
 
-		// Check if this prediction exceeded the target
-		if durationMs > maxDurationMs {
-			t.Errorf("Prediction %d took %.2fms, exceeded target of %dms", i+1, durationMs, maxDurationMs)
-		}
 	}
 
 	// Calculate statistics
@@ -330,13 +326,13 @@ func testPredictionPerformance(t *testing.T, ctx context.Context, predictor *Pre
 	t.Logf("  Average: %.2fms", avgMs)
 	t.Logf("  Minimum: %.2fms", minMs)
 	t.Logf("  Maximum: %.2fms", maxMs)
-	t.Logf("  Target:  < %dms", maxDurationMs)
+	t.Logf("  Target:  < %dms", avgDurationMs)
 
 	// Overall performance check
-	if avgMs > maxDurationMs {
-		t.Errorf("Average prediction time %.2fms exceeded target of %dms", avgMs, maxDurationMs)
+	if avgMs > avgDurationMs {
+		t.Errorf("Average prediction time %.2fms exceeded target of %dms", avgMs, avgDurationMs)
 	} else {
-		t.Logf("✅ Performance target met: avg %.2fms < %dms", avgMs, maxDurationMs)
+		t.Logf("✅ Performance target met: avg %.2fms < %dms", avgMs, avgDurationMs)
 	}
 
 	// Check for consistency (max shouldn't be too much higher than average)
@@ -417,7 +413,7 @@ func testHTTPOnlyPerformance(t *testing.T, ctx context.Context) {
 
 	// Performance test
 	const numTests = 15
-	const targetMs = 500
+	const targetMs = 250
 
 	var durations []time.Duration
 	var successful int
@@ -441,9 +437,6 @@ func testHTTPOnlyPerformance(t *testing.T, ctx context.Context) {
 		durationMs := float64(duration.Nanoseconds()) / 1e6
 		
 		status := "✅"
-		if durationMs > targetMs {
-			status = "❌"
-		}
 		
 		t.Logf("%s Test %d: %.1fms (TTFT: %.0fms, TPOT: %.0fms)", 
 			status, i+1, durationMs, response.TTFT, response.TPOT)
diff --git a/pkg/epp/requestcontrol/director.go b/pkg/epp/requestcontrol/director.go
diff --git a/pkg/epp/requestcontrol/director_test.go b/pkg/epp/requestcontrol/director_test.go