honor --mm_encoder_attn_backend when used (#27124)

bradleyhd · bradleyhd · commit 2bcf68015918 · 2025-10-22T15:47:24.000-07:00
Summary: Pull Request resolved: #27124 In #26104, some changes were made in layer.py that resulted in always trying to switch to FA backend for ViT, even when `VLLM_ATTENTION_BACKEND` is set. This broke Meta's internal AMD pipelines as it is not desired nor expected behavior. With this change, the models that were changed in the offending PR can explicitly opt-in to this behavior. Reviewed By: Prowindy Differential Revision: D84946967
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
@@ -3,7 +3,7 @@
 """Attention layer."""
 
 from collections.abc import Callable
-from typing import cast
+from typing import cast, Optional
 
 import torch
 import torch.nn as nn
@@ -93,12 +93,13 @@ def check_upstream_fa_availability(dtype: torch.dtype):
 
 
 def maybe_get_vit_flash_attn_backend(
-    attn_backend: _Backend, use_upstream_fa: bool
+    attn_backend: _Backend, use_upstream_fa: bool, attn_backend_override: Optional[_Backend] = None
 ) -> tuple[_Backend, Callable]:
     if (
         attn_backend != _Backend.FLASH_ATTN
         and attn_backend != _Backend.ROCM_AITER_FA
         and check_upstream_fa_availability(torch.get_default_dtype())
+        and attn_backend_override is None
     ):
         attn_backend = _Backend.FLASH_ATTN
         use_upstream_fa = True
@@ -499,6 +500,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
 
diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
@@ -299,6 +299,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
         if self.attn_backend not in {
diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
@@ -206,6 +206,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
 
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
@@ -296,6 +296,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
 
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
@@ -364,6 +364,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
 
diff --git a/vllm/model_executor/models/siglip2navit.py b/vllm/model_executor/models/siglip2navit.py
@@ -259,6 +259,7 @@ def __init__(
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
 

Original file line number	Diff line number	Diff line change
`@@ -299,6 +299,7 @@ def __init__(`
`299`	`299`	`maybe_get_vit_flash_attn_backend(`
`300`	`300`	`self.attn_backend,`
`301`	`301`	`self.use_upstream_fa,`
	`302`	`+ attn_backend_override=attn_backend_override,`
`302`	`303`	`)`
`303`	`304`	`)`
`304`	`305`	`if self.attn_backend not in {`
Original file line number	Diff line number	Diff line change
`@@ -206,6 +206,7 @@ def __init__(`
`206`	`206`	`maybe_get_vit_flash_attn_backend(`
`207`	`207`	`self.attn_backend,`
`208`	`208`	`self.use_upstream_fa,`
	`209`	`+ attn_backend_override=attn_backend_override,`
`209`	`210`	`)`
`210`	`211`	`)`
`211`	`212`
Original file line number	Diff line number	Diff line change
`@@ -296,6 +296,7 @@ def __init__(`
`296`	`296`	`maybe_get_vit_flash_attn_backend(`
`297`	`297`	`self.attn_backend,`
`298`	`298`	`self.use_upstream_fa,`
	`299`	`+ attn_backend_override=attn_backend_override,`
`299`	`300`	`)`
`300`	`301`	`)`
`301`	`302`
Original file line number	Diff line number	Diff line change
`@@ -364,6 +364,7 @@ def __init__(`
`364`	`364`	`maybe_get_vit_flash_attn_backend(`
`365`	`365`	`self.attn_backend,`
`366`	`366`	`self.use_upstream_fa,`
	`367`	`+ attn_backend_override=attn_backend_override,`
`367`	`368`	`)`
`368`	`369`	`)`
`369`	`370`
Original file line number	Diff line number	Diff line change
`@@ -259,6 +259,7 @@ def __init__(`
`259`	`259`	`maybe_get_vit_flash_attn_backend(`
`260`	`260`	`self.attn_backend,`
`261`	`261`	`self.use_upstream_fa,`
	`262`	`+ attn_backend_override=attn_backend_override,`
`262`	`263`	`)`
`263`	`264`	`)`
`264`	`265`