Log split queries at query frontend (#5703)

yeya24 · web-flow · commit 605e1ed6a601 · 2023-12-12T08:19:43.000-08:00
* log split queries at query frontend

Signed-off-by: Ben Ye &lt;benye@amazon.com&gt;

* update changelog

Signed-off-by: Ben Ye &lt;benye@amazon.com&gt;

---------

Signed-off-by: Ben Ye &lt;benye@amazon.com&gt;
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -10,6 +10,7 @@
 * [ENHANCEMENT] Compactor: Add new compactor metric `cortex_compactor_start_duration_seconds`. #5683
 * [ENHANCEMENT] Upgraded Docker base images to `alpine:3.18`. #5684
 * [ENHANCEMENT] Index Cache: Multi level cache adds config `max_backfill_items` to cap max items to backfill per async operation. #5686
+* [ENHANCEMENT] Query Frontend: Log number of split queries in `query stats` log. #5703
 
 ## 1.16.0 2023-11-20
 
diff --git a/pkg/frontend/transport/handler.go b/pkg/frontend/transport/handler.go
@@ -294,6 +294,7 @@ func (f *Handler) reportQueryStats(r *http.Request, userID string, queryString u
 	numSamples := stats.LoadFetchedSamples()
 	numChunkBytes := stats.LoadFetchedChunkBytes()
 	numDataBytes := stats.LoadFetchedDataBytes()
+	splitQueries := stats.LoadSplitQueries()
 
 	// Track stats.
 	f.querySeconds.WithLabelValues(userID).Add(wallTime.Seconds())
@@ -324,6 +325,7 @@ func (f *Handler) reportQueryStats(r *http.Request, userID string, queryString u
 		"fetched_samples_count", numSamples,
 		"fetched_chunks_bytes", numChunkBytes,
 		"fetched_data_bytes", numDataBytes,
+		"split_queries", splitQueries,
 		"status_code", statusCode,
 		"response_size", contentLength,
 	}, stats.LoadExtraFields()...)
diff --git a/pkg/frontend/transport/handler_test.go b/pkg/frontend/transport/handler_test.go
@@ -318,11 +318,11 @@ func TestReportQueryStatsFormat(t *testing.T) {
 
 	tests := map[string]testCase{
 		"should not include query and header details if empty": {
-			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 status_code=200 response_size=1000`,
+			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 split_queries=0 status_code=200 response_size=1000`,
 		},
 		"should include query length and string at the end": {
 			queryString: url.Values(map[string][]string{"query": {"up"}}),
-			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 status_code=200 response_size=1000 query_length=2 param_query=up`,
+			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 split_queries=0 status_code=200 response_size=1000 query_length=2 param_query=up`,
 		},
 		"should include query stats": {
 			queryStats: &querier_stats.QueryStats{
@@ -333,22 +333,23 @@ func TestReportQueryStatsFormat(t *testing.T) {
 					FetchedSamplesCount: 300,
 					FetchedChunkBytes:   1024,
 					FetchedDataBytes:    2048,
+					SplitQueries:        10,
 				},
 			},
-			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=3 fetched_series_count=100 fetched_chunks_count=200 fetched_samples_count=300 fetched_chunks_bytes=1024 fetched_data_bytes=2048 status_code=200 response_size=1000`,
+			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=3 fetched_series_count=100 fetched_chunks_count=200 fetched_samples_count=300 fetched_chunks_bytes=1024 fetched_data_bytes=2048 split_queries=10 status_code=200 response_size=1000`,
 		},
 		"should include user agent": {
 			header:      http.Header{"User-Agent": []string{"Grafana"}},
-			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 status_code=200 response_size=1000 user_agent=Grafana`,
+			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 split_queries=0 status_code=200 response_size=1000 user_agent=Grafana`,
 		},
 		"should include response error": {
 			responseErr: errors.New("foo_err"),
-			expectedLog: `level=error msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 status_code=200 response_size=1000 error=foo_err`,
+			expectedLog: `level=error msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 split_queries=0 status_code=200 response_size=1000 error=foo_err`,
 		},
 		"should include query priority": {
 			queryString: url.Values(map[string][]string{"query": {"up"}}),
 			header:      http.Header{util.QueryPriorityHeaderKey: []string{"99"}},
-			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 status_code=200 response_size=1000 query_length=2 priority=99 param_query=up`,
+			expectedLog: `level=info msg="query stats" component=query-frontend method=GET path=/prometheus/api/v1/query response_time=1s query_wall_time_seconds=0 fetched_series_count=0 fetched_chunks_count=0 fetched_samples_count=0 fetched_chunks_bytes=0 fetched_data_bytes=0 split_queries=0 status_code=200 response_size=1000 query_length=2 priority=99 param_query=up`,
 		},
 	}
 
diff --git a/pkg/frontend/transport/roundtripper.go b/pkg/frontend/transport/roundtripper.go
@@ -8,6 +8,8 @@ import (
 
 	"github.com/weaveworks/common/httpgrpc"
 	"github.com/weaveworks/common/httpgrpc/server"
+
+	querier_stats "github.com/cortexproject/cortex/pkg/querier/stats"
 )
 
 // GrpcRoundTripper is similar to http.RoundTripper, but works with HTTP requests converted to protobuf messages.
@@ -39,6 +41,8 @@ func (a *grpcRoundTripperAdapter) RoundTrip(r *http.Request) (*http.Response, er
 		return nil, err
 	}
 
+	stats := querier_stats.FromContext(r.Context())
+	stats.AddSplitQueries(1)
 	resp, err := a.roundTripper.RoundTripGRPC(r.Context(), req)
 	if err != nil {
 		return nil, err
diff --git a/pkg/querier/stats/stats.go b/pkg/querier/stats/stats.go
@@ -180,6 +180,22 @@ func (s *QueryStats) LoadFetchedChunks() uint64 {
 	return atomic.LoadUint64(&s.FetchedChunksCount)
 }
 
+func (s *QueryStats) AddSplitQueries(count uint64) {
+	if s == nil {
+		return
+	}
+
+	atomic.AddUint64(&s.SplitQueries, count)
+}
+
+func (s *QueryStats) LoadSplitQueries() uint64 {
+	if s == nil {
+		return 0
+	}
+
+	return atomic.LoadUint64(&s.SplitQueries)
+}
+
 // Merge the provided Stats into this one.
 func (s *QueryStats) Merge(other *QueryStats) {
 	if s == nil || other == nil {
diff --git a/pkg/querier/stats/stats.pb.go b/pkg/querier/stats/stats.pb.go
diff --git a/pkg/querier/stats/stats.proto b/pkg/querier/stats/stats.proto
@@ -28,4 +28,7 @@ message Stats {
   uint64 fetched_samples_count = 7;
   // The limit hit when executing the query
   string limit_hit = 8 [(gogoproto.nullable) = true];
+  // The total number of split queries sent after going through all the middlewares.
+  // It includes the number of requests that might be discarded by the queue.
+  uint64 split_queries = 9;
 }

Original file line number	Diff line number	Diff line change
`@@ -8,6 +8,8 @@ import (`
`8`	`8`
`9`	`9`	`"github.com/weaveworks/common/httpgrpc"`
`10`	`10`	`"github.com/weaveworks/common/httpgrpc/server"`
	`11`	`+`
	`12`	`+ querier_stats "github.com/cortexproject/cortex/pkg/querier/stats"`
`11`	`13`	`)`
`12`	`14`
`13`	`15`	`// GrpcRoundTripper is similar to http.RoundTripper, but works with HTTP requests converted to protobuf messages.`
`@@ -39,6 +41,8 @@ func (a grpcRoundTripperAdapter) RoundTrip(r http.Request) (*http.Response, er`
`39`	`41`	`return nil, err`
`40`	`42`	`}`
`41`	`43`
	`44`	`+ stats := querier_stats.FromContext(r.Context())`
	`45`	`+ stats.AddSplitQueries(1)`
`42`	`46`	`resp, err := a.roundTripper.RoundTripGRPC(r.Context(), req)`
`43`	`47`	`if err != nil {`
`44`	`48`	`return nil, err`
Original file line number	Diff line number	Diff line change
`@@ -28,4 +28,7 @@ message Stats {`
`28`	`28`	`uint64 fetched_samples_count = 7;`
`29`	`29`	`// The limit hit when executing the query`
`30`	`30`	`string limit_hit = 8 [(gogoproto.nullable) = true];`
	`31`	`+ // The total number of split queries sent after going through all the middlewares.`
	`32`	`+ // It includes the number of requests that might be discarded by the queue.`
	`33`	`+ uint64 split_queries = 9;`
`31`	`34`	`}`