jax-ml · copybara-service · Jun 12, 2025
diff --git a/tests/pallas/gpu_paged_attention_test.py b/tests/pallas/gpu_paged_attention_test.py
@@ -107,6 +107,7 @@ def setUp(self):
 
     super().setUp()
 
+
 class PagedAttentionKernelTest(PallasBaseTest):
 
   def setUp(self):
@@ -179,7 +180,7 @@ def test_paged_attention(
       attn_logits_soft_cap=(None,),
       quantize_k=(True, False),
       quantize_v=(True, False),
-      quant_dtype=(jnp.float8_e4m3fn, jnp.int8),
+      quant_dtype=(jnp.float8_e5m2, jnp.float8_e4m3fn, jnp.int8)
   )
   def test_quantized_paged_attention(
       self,
@@ -198,6 +199,9 @@ def test_quantized_paged_attention(
   ):
     if not quantize_k and not quantize_v:
       self.skipTest("Skipping since neither (k, v) quantization requested.")
+    if (quant_dtype == jnp.float8_e4m3fn
+        and not jtu.is_cuda_compute_capability_at_least("8.9")):
+      self.skipTest("Skipping since float8_e4m3fn is not supported on >= sm89")
     max_kv_len = 2048
     seq_lens = np.asarray([3, 256, 513, 1023, 2048], dtype=jnp.int32)
     q, k_pages, v_pages, block_tables = _generate_qkv(