feat: Updated semantic conventions based on otel community (#884)

Co-authored-by: Nir Gazit <nirga@users.noreply.github.com>
traceloop · Apr 29, 2024 · 23eba2a · 23eba2a
1 parent e2a09ae
commit 23eba2a
Show file tree

Hide file tree

Showing 69 changed files with 454 additions and 435 deletions.
diff --git a/...entelemetry-instrumentation-anthropic/opentelemetry/instrumentation/anthropic/__init__.py b/...entelemetry-instrumentation-anthropic/opentelemetry/instrumentation/anthropic/__init__.py
@@ -110,8 +110,8 @@ def _set_input_attributes(span, kwargs):
     set_span_attribute(
         span, SpanAttributes.LLM_REQUEST_MAX_TOKENS, kwargs.get("max_tokens_to_sample")
     )
-    set_span_attribute(span, SpanAttributes.LLM_TEMPERATURE, kwargs.get("temperature"))
-    set_span_attribute(span, SpanAttributes.LLM_TOP_P, kwargs.get("top_p"))
+    set_span_attribute(span, SpanAttributes.LLM_REQUEST_TEMPERATURE, kwargs.get("temperature"))
+    set_span_attribute(span, SpanAttributes.LLM_REQUEST_TOP_P, kwargs.get("top_p"))
     set_span_attribute(
         span, SpanAttributes.LLM_FREQUENCY_PENALTY, kwargs.get("frequency_penalty")
     )
@@ -394,7 +394,7 @@ def _calculate_metrics_attributes(response):
     if not isinstance(response, dict):
         response = response.__dict__
     return {
-        "llm.response.model": response.get("model"),
+        "gen_ai.response.model": response.get("model"),
     }
 
 
@@ -420,7 +420,7 @@ def _wrap(
         name,
         kind=SpanKind.CLIENT,
         attributes={
-            SpanAttributes.LLM_VENDOR: "Anthropic",
+            SpanAttributes.LLM_SYSTEM: "Anthropic",
             SpanAttributes.LLM_REQUEST_TYPE: LLMRequestTypeValues.COMPLETION.value,
         },
     )
@@ -516,7 +516,7 @@ async def _awrap(
         name,
         kind=SpanKind.CLIENT,
         attributes={
-            SpanAttributes.LLM_VENDOR: "Anthropic",
+            SpanAttributes.LLM_SYSTEM: "Anthropic",
             SpanAttributes.LLM_REQUEST_TYPE: LLMRequestTypeValues.COMPLETION.value,
         },
     )

diff --git a/...ntelemetry-instrumentation-anthropic/opentelemetry/instrumentation/anthropic/streaming.py b/...ntelemetry-instrumentation-anthropic/opentelemetry/instrumentation/anthropic/streaming.py
@@ -122,7 +122,7 @@ def build_from_streaming_response(
         _process_response_item(item, complete_response)
 
     metric_attributes = {
-        "llm.response.model": complete_response.get("model"),
+        "gen_ai.response.model": complete_response.get("model"),
     }
 
     if duration_histogram:
@@ -205,7 +205,7 @@ async def abuild_from_streaming_response(
         _process_response_item(item, complete_response)
 
     metric_attributes = {
-        "llm.response.model": complete_response.get("model"),
+        "gen_ai.response.model": complete_response.get("model"),
     }
 
     if duration_histogram:

diff --git a/packages/opentelemetry-instrumentation-anthropic/poetry.lock b/packages/opentelemetry-instrumentation-anthropic/poetry.lock
diff --git a/packages/opentelemetry-instrumentation-anthropic/pyproject.toml b/packages/opentelemetry-instrumentation-anthropic/pyproject.toml
@@ -27,7 +27,7 @@ python = ">=3.9,<4"
 opentelemetry-api = "^1.24.0"
 opentelemetry-instrumentation = "^0.45b0"
 opentelemetry-semantic-conventions = "^0.45b0"
-opentelemetry-semantic-conventions-ai = "0.1.1"
+opentelemetry-semantic-conventions-ai = "0.2.0"
 
 [tool.poetry.group.dev.dependencies]
 autopep8 = "2.1.0"

diff --git a/packages/opentelemetry-instrumentation-anthropic/tests/test_completion.py b/packages/opentelemetry-instrumentation-anthropic/tests/test_completion.py
@@ -26,10 +26,10 @@ def test_anthropic_completion(exporter, reader):
 
     anthropic_span = spans[0]
     assert (
-        anthropic_span.attributes["llm.prompts.0.user"]
+        anthropic_span.attributes["gen_ai.prompt.0.user"]
         == f"{HUMAN_PROMPT}\nHello world\n{AI_PROMPT}"
     )
-    assert anthropic_span.attributes.get("llm.completions.0.content")
+    assert anthropic_span.attributes.get("gen_ai.completion.0.content")
 
     metrics_data = reader.get_metrics_data()
     resource_metrics = metrics_data.resource_metrics
@@ -51,7 +51,7 @@ def test_anthropic_completion(exporter, reader):
                             "prompt",
                         ]
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-instant-1.2"
                         )
                         assert data_point.value > 0
@@ -61,7 +61,7 @@ def test_anthropic_completion(exporter, reader):
                     for data_point in metric.data.data_points:
                         assert data_point.value >= 1
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-instant-1.2"
                         )
 
@@ -74,7 +74,7 @@ def test_anthropic_completion(exporter, reader):
                         data_point.sum > 0 for data_point in metric.data.data_points
                     )
                     assert all(
-                        data_point.attributes.get("llm.response.model")
+                        data_point.attributes.get("gen_ai.response.model")
                         == "claude-instant-1.2"
                         or data_point.attributes.get("error.type") == "TypeError"
                         for data_point in metric.data.data_points
@@ -117,18 +117,18 @@ def test_anthropic_message_create(exporter, reader):
 
     anthropic_span = spans[0]
     assert (
-        anthropic_span.attributes["llm.prompts.0.content"]
+        anthropic_span.attributes["gen_ai.prompt.0.content"]
         == "Tell me a joke about OpenTelemetry"
     )
-    assert (anthropic_span.attributes["llm.prompts.0.role"]) == "user"
+    assert (anthropic_span.attributes["gen_ai.prompt.0.role"]) == "user"
     assert (
-        anthropic_span.attributes.get("llm.completions.0.content")
+        anthropic_span.attributes.get("gen_ai.completion.0.content")
         == response.content[0].text
     )
-    assert anthropic_span.attributes["llm.usage.prompt_tokens"] == 8
+    assert anthropic_span.attributes["gen_ai.usage.prompt_tokens"] == 8
     assert (
-        anthropic_span.attributes["llm.usage.completion_tokens"]
-        + anthropic_span.attributes["llm.usage.prompt_tokens"]
+        anthropic_span.attributes["gen_ai.usage.completion_tokens"]
+        + anthropic_span.attributes["gen_ai.usage.prompt_tokens"]
         == anthropic_span.attributes["llm.usage.total_tokens"]
     )
 
@@ -152,7 +152,7 @@ def test_anthropic_message_create(exporter, reader):
                             "prompt",
                         ]
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-opus-20240229"
                         )
                         assert data_point.value > 0
@@ -162,7 +162,7 @@ def test_anthropic_message_create(exporter, reader):
                     for data_point in metric.data.data_points:
                         assert data_point.value >= 1
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-opus-20240229"
                         )
 
@@ -175,7 +175,7 @@ def test_anthropic_message_create(exporter, reader):
                         data_point.sum > 0 for data_point in metric.data.data_points
                     )
                     assert all(
-                        data_point.attributes.get("llm.response.model")
+                        data_point.attributes.get("gen_ai.response.model")
                         == "claude-3-opus-20240229"
                         or data_point.attributes.get("error.type") == "TypeError"
                         for data_point in metric.data.data_points
@@ -225,7 +225,7 @@ def test_anthropic_multi_modal(exporter):
         "anthropic.completion",
     ]
     anthropic_span = spans[0]
-    assert anthropic_span.attributes["llm.prompts.0.content"] == json.dumps(
+    assert anthropic_span.attributes["gen_ai.prompt.0.content"] == json.dumps(
         [
             {"type": "text", "text": "What do you see?"},
             {
@@ -238,15 +238,15 @@ def test_anthropic_multi_modal(exporter):
             },
         ]
     )
-    assert (anthropic_span.attributes["llm.prompts.0.role"]) == "user"
+    assert (anthropic_span.attributes["gen_ai.prompt.0.role"]) == "user"
     assert (
-        anthropic_span.attributes.get("llm.completions.0.content")
+        anthropic_span.attributes.get("gen_ai.completion.0.content")
         == response.content[0].text
     )
-    assert anthropic_span.attributes["llm.usage.prompt_tokens"] == 1381
+    assert anthropic_span.attributes["gen_ai.usage.prompt_tokens"] == 1381
     assert (
-        anthropic_span.attributes["llm.usage.completion_tokens"]
-        + anthropic_span.attributes["llm.usage.prompt_tokens"]
+        anthropic_span.attributes["gen_ai.usage.completion_tokens"]
+        + anthropic_span.attributes["gen_ai.usage.prompt_tokens"]
         == anthropic_span.attributes["llm.usage.total_tokens"]
     )
 
@@ -277,17 +277,17 @@ def test_anthropic_message_streaming(exporter, reader):
     ]
     anthropic_span = spans[0]
     assert (
-        anthropic_span.attributes["llm.prompts.0.content"]
+        anthropic_span.attributes["gen_ai.prompt.0.content"]
         == "Tell me a joke about OpenTelemetry"
     )
-    assert (anthropic_span.attributes["llm.prompts.0.role"]) == "user"
+    assert (anthropic_span.attributes["gen_ai.prompt.0.role"]) == "user"
     assert (
-        anthropic_span.attributes.get("llm.completions.0.content") == response_content
+        anthropic_span.attributes.get("gen_ai.completion.0.content") == response_content
     )
-    assert anthropic_span.attributes["llm.usage.prompt_tokens"] == 8
+    assert anthropic_span.attributes["gen_ai.usage.prompt_tokens"] == 8
     assert (
-        anthropic_span.attributes["llm.usage.completion_tokens"]
-        + anthropic_span.attributes["llm.usage.prompt_tokens"]
+        anthropic_span.attributes["gen_ai.usage.completion_tokens"]
+        + anthropic_span.attributes["gen_ai.usage.prompt_tokens"]
         == anthropic_span.attributes["llm.usage.total_tokens"]
     )
 
@@ -311,7 +311,7 @@ def test_anthropic_message_streaming(exporter, reader):
                             "prompt",
                         ]
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-haiku-20240307"
                         )
                         assert data_point.value > 0
@@ -321,7 +321,7 @@ def test_anthropic_message_streaming(exporter, reader):
                     for data_point in metric.data.data_points:
                         assert data_point.value >= 1
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-haiku-20240307"
                         )
 
@@ -334,7 +334,7 @@ def test_anthropic_message_streaming(exporter, reader):
                         data_point.sum > 0 for data_point in metric.data.data_points
                     )
                     assert all(
-                        data_point.attributes.get("llm.response.model")
+                        data_point.attributes.get("gen_ai.response.model")
                         == "claude-3-haiku-20240307"
                         or data_point.attributes.get("error.type") == "TypeError"
                         for data_point in metric.data.data_points
@@ -372,18 +372,18 @@ async def test_async_anthropic_message_create(exporter, reader):
     ]
     anthropic_span = spans[0]
     assert (
-        anthropic_span.attributes["llm.prompts.0.content"]
+        anthropic_span.attributes["gen_ai.prompt.0.content"]
         == "Tell me a joke about OpenTelemetry"
     )
-    assert (anthropic_span.attributes["llm.prompts.0.role"]) == "user"
+    assert (anthropic_span.attributes["gen_ai.prompt.0.role"]) == "user"
     assert (
-        anthropic_span.attributes.get("llm.completions.0.content")
+        anthropic_span.attributes.get("gen_ai.completion.0.content")
         == response.content[0].text
     )
-    assert anthropic_span.attributes["llm.usage.prompt_tokens"] == 8
+    assert anthropic_span.attributes["gen_ai.usage.prompt_tokens"] == 8
     assert (
-        anthropic_span.attributes["llm.usage.completion_tokens"]
-        + anthropic_span.attributes["llm.usage.prompt_tokens"]
+        anthropic_span.attributes["gen_ai.usage.completion_tokens"]
+        + anthropic_span.attributes["gen_ai.usage.prompt_tokens"]
         == anthropic_span.attributes["llm.usage.total_tokens"]
     )
 
@@ -407,7 +407,7 @@ async def test_async_anthropic_message_create(exporter, reader):
                             "prompt",
                         ]
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-opus-20240229"
                         )
                         assert data_point.value > 0
@@ -417,7 +417,7 @@ async def test_async_anthropic_message_create(exporter, reader):
                     for data_point in metric.data.data_points:
                         assert data_point.value >= 1
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-opus-20240229"
                         )
 
@@ -430,7 +430,7 @@ async def test_async_anthropic_message_create(exporter, reader):
                         data_point.sum > 0 for data_point in metric.data.data_points
                     )
                     assert all(
-                        data_point.attributes.get("llm.response.model")
+                        data_point.attributes.get("gen_ai.response.model")
                         == "claude-3-opus-20240229"
                         or data_point.attributes.get("error.type") == "TypeError"
                         for data_point in metric.data.data_points
@@ -474,17 +474,17 @@ async def test_async_anthropic_message_streaming(exporter, reader):
     ]
     anthropic_span = spans[0]
     assert (
-        anthropic_span.attributes["llm.prompts.0.content"]
+        anthropic_span.attributes["gen_ai.prompt.0.content"]
         == "Tell me a joke about OpenTelemetry"
     )
-    assert (anthropic_span.attributes["llm.prompts.0.role"]) == "user"
+    assert (anthropic_span.attributes["gen_ai.prompt.0.role"]) == "user"
     assert (
-        anthropic_span.attributes.get("llm.completions.0.content") == response_content
+        anthropic_span.attributes.get("gen_ai.completion.0.content") == response_content
     )
-    assert anthropic_span.attributes["llm.usage.prompt_tokens"] == 8
+    assert anthropic_span.attributes["gen_ai.usage.prompt_tokens"] == 8
     assert (
-        anthropic_span.attributes["llm.usage.completion_tokens"]
-        + anthropic_span.attributes["llm.usage.prompt_tokens"]
+        anthropic_span.attributes["gen_ai.usage.completion_tokens"]
+        + anthropic_span.attributes["gen_ai.usage.prompt_tokens"]
         == anthropic_span.attributes["llm.usage.total_tokens"]
     )
 
@@ -508,7 +508,7 @@ async def test_async_anthropic_message_streaming(exporter, reader):
                             "prompt",
                         ]
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-haiku-20240307"
                         )
                         assert data_point.value > 0
@@ -518,7 +518,7 @@ async def test_async_anthropic_message_streaming(exporter, reader):
                     for data_point in metric.data.data_points:
                         assert data_point.value >= 1
                         assert (
-                            data_point.attributes["llm.response.model"]
+                            data_point.attributes["gen_ai.response.model"]
                             == "claude-3-haiku-20240307"
                         )
 
@@ -531,7 +531,7 @@ async def test_async_anthropic_message_streaming(exporter, reader):
                         data_point.sum > 0 for data_point in metric.data.data_points
                     )
                     assert all(
-                        data_point.attributes.get("llm.response.model")
+                        data_point.attributes.get("gen_ai.response.model")
                         == "claude-3-haiku-20240307"
                         or data_point.attributes.get("error.type") == "TypeError"
                         for data_point in metric.data.data_points