Python: Add telemetry for server latency tracing

otel has established semantic conventions for [tracing server latency](https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/#generative-ai-model-server-metrics).

Propose setting up latency metrics for the following:
- `gen_ai.server.request.duration`
- `gen_ai.server.time_per_output_token`
- `gen_ai.server.time_to_first_token`

These metrics allow users to diagnose latency and identify opportunities for pipeline enhancements. This feature will also elevate MS Agent Framework for production use-cases instead of a fun prototyping tool.



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Python: Add telemetry for server latency tracing #2249

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Python: Add telemetry for server latency tracing #2249

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions