huggingface
diff --git a/‎timm/layers/attention.py‎
Lines changed: 19 additions & 13 deletions b/‎timm/layers/attention.py‎
Lines changed: 19 additions & 13 deletions
diff --git a/‎timm/layers/attention2d.py‎
Lines changed: 38 additions & 9 deletions b/‎timm/layers/attention2d.py‎
Lines changed: 38 additions & 9 deletions
diff --git a/‎timm/layers/attention_pool.py‎
Lines changed: 12 additions & 9 deletions b/‎timm/layers/attention_pool.py‎
Lines changed: 12 additions & 9 deletions
diff --git a/‎timm/layers/attention_pool2d.py‎
Lines changed: 20 additions & 14 deletions b/‎timm/layers/attention_pool2d.py‎
Lines changed: 20 additions & 14 deletions
diff --git a/‎timm/layers/blur_pool.py‎
Lines changed: 9 additions & 4 deletions b/‎timm/layers/blur_pool.py‎
Lines changed: 9 additions & 4 deletions
@@ -36,6 +36,8 @@ def __init__(
             attn_drop: float = 0.,
             proj_drop: float = 0.,
             norm_layer: Optional[Type[nn.Module]] = None,
+            device=None,
+            dtype=None
     ) -> None:
         """Initialize the Attention module.
 
@@ -50,6 +52,7 @@ def __init__(
             norm_layer: Normalization layer constructor for QK normalization if enabled
         """
         super().__init__()
+        dd = {'device': device, 'dtype': dtype}
         assert dim % num_heads == 0, 'dim should be divisible by num_heads'
         if qk_norm or scale_norm:
             assert norm_layer is not None, 'norm_layer must be provided if qk_norm or scale_norm is True'
@@ -58,12 +61,12 @@ def __init__(
         self.scale = self.head_dim ** -0.5
         self.fused_attn = use_fused_attn()
 
-        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
-        self.q_norm = norm_layer(self.head_dim) if qk_norm else nn.Identity()
-        self.k_norm = norm_layer(self.head_dim) if qk_norm else nn.Identity()
+        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias, **dd)
+        self.q_norm = norm_layer(self.head_dim, **dd) if qk_norm else nn.Identity()
+        self.k_norm = norm_layer(self.head_dim, **dd) if qk_norm else nn.Identity()
         self.attn_drop = nn.Dropout(attn_drop)
-        self.norm = norm_layer(dim) if scale_norm else nn.Identity()
-        self.proj = nn.Linear(dim, dim, bias=proj_bias)
+        self.norm = norm_layer(dim, **dd) if scale_norm else nn.Identity()
+        self.proj = nn.Linear(dim, dim, bias=proj_bias, **dd)
         self.proj_drop = nn.Dropout(proj_drop)
 
     def forward(
@@ -122,6 +125,8 @@ def __init__(
             scale_norm: bool = False,
             proj_bias: bool = True,
             rotate_half: bool = False,
+            device=None,
+            dtype=None,
     ):
         """Initialize the Attention module.
 
@@ -140,6 +145,7 @@ def __init__(
             rotate_half: Use 'half' ROPE layout instead of default 'interleaved'
         """
         super().__init__()
+        dd = {'device': device, 'dtype': dtype}
         if scale_norm or qk_norm:
             assert norm_layer is not None, 'norm_layer must be provided if qk_norm or scale_norm is True'
         self.num_heads = num_heads
@@ -153,19 +159,19 @@ def __init__(
         self.rotate_half = rotate_half
 
         if qkv_fused:
-            self.qkv = nn.Linear(dim, attn_dim * 3, bias=qkv_bias)
+            self.qkv = nn.Linear(dim, attn_dim * 3, bias=qkv_bias, **dd)
             self.q_proj = self.k_proj = self.v_proj = None
         else:
             self.qkv = None
-            self.q_proj = nn.Linear(dim, attn_dim, bias=qkv_bias)
-            self.k_proj = nn.Linear(dim, attn_dim, bias=qkv_bias)
-            self.v_proj = nn.Linear(dim, attn_dim, bias=qkv_bias)
+            self.q_proj = nn.Linear(dim, attn_dim, bias=qkv_bias, **dd)
+            self.k_proj = nn.Linear(dim, attn_dim, bias=qkv_bias, **dd)
+            self.v_proj = nn.Linear(dim, attn_dim, bias=qkv_bias, **dd)
 
-        self.q_norm = norm_layer(head_dim) if qk_norm else nn.Identity()
-        self.k_norm = norm_layer(head_dim) if qk_norm else nn.Identity()
+        self.q_norm = norm_layer(head_dim, **dd) if qk_norm else nn.Identity()
+        self.k_norm = norm_layer(head_dim, **dd) if qk_norm else nn.Identity()
         self.attn_drop = nn.Dropout(attn_drop)
-        self.norm = norm_layer(attn_dim) if scale_norm else nn.Identity()
-        self.proj = nn.Linear(attn_dim, dim, bias=proj_bias)
+        self.norm = norm_layer(attn_dim, **dd) if scale_norm else nn.Identity()
+        self.proj = nn.Linear(attn_dim, dim, bias=proj_bias, **dd)
         self.proj_drop = nn.Dropout(proj_drop)
 
     def forward(
 
@@ -33,22 +33,34 @@ def __init__(
             value_dim: int = 64,
             attn_drop: float = 0.,
             proj_drop: float = 0.,
+            device=None,
+            dtype=None,
     ):
         """Initializer."""
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         dim_out = dim_out or dim
         self.num_heads = num_heads
         self.key_dim = key_dim
         self.value_dim = value_dim
         self.scale = key_dim ** -0.5
 
-        self.query_proj = nn.Parameter(torch.randn([self.num_heads, self.key_dim, dim]))
-        self.key_proj = nn.Parameter(torch.randn([dim, self.key_dim]))
-        self.value_proj = nn.Parameter(torch.randn([dim, self.value_dim]))
+        self.query_proj = nn.Parameter(torch.empty((self.num_heads, self.key_dim, dim), **dd))
+        self.key_proj = nn.Parameter(torch.empty((dim, self.key_dim), **dd))
+        self.value_proj = nn.Parameter(torch.empty((dim, self.value_dim), **dd))
         self.attn_drop = nn.Dropout(attn_drop)
-        self.out_proj = nn.Parameter(torch.randn([dim_out, self.num_heads, self.value_dim]))
+        self.out_proj = nn.Parameter(torch.empty((dim_out, self.num_heads, self.value_dim), **dd))
         self.proj_drop = nn.Dropout(proj_drop)
 
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        scale = self.key_proj.shape[0] ** -0.5
+        nn.init.normal_(self.query_proj, std=scale)
+        nn.init.normal_(self.key_proj, std=scale)
+        nn.init.normal_(self.value_proj, std=scale)
+        nn.init.normal_(self.out_proj, std=self.out_proj.shape[0] ** -0.5)
+
     def _reshape_input(self, t):
         """Reshapes a tensor to three dimensions, keeping the first and last."""
         s = t.shape
@@ -108,6 +120,8 @@ def __init__(
             proj_drop: float = 0.,
             norm_layer: Type[nn.Module] = nn.BatchNorm2d,
             use_bias: bool = False,
+            device=None,
+            dtype=None,
     ):
         """Initializer.
 
@@ -119,6 +133,7 @@ def __init__(
           kv_stride: Key and value stride size.
           dw_kernel_size: Spatial dimension of the depthwise kernel.
         """
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         dim_out = dim_out or dim
         self.num_heads = num_heads
@@ -149,6 +164,7 @@ def __init__(
             self.num_heads * self.key_dim,
             kernel_size=1,
             bias=use_bias,
+            **dd,
         ))
 
         self.key = nn.Sequential()
@@ -161,6 +177,7 @@ def __init__(
                 dilation=dilation,
                 padding=padding,
                 depthwise=True,
+                **dd,
             ))
             self.key.add_module('norm', norm_layer(dim))
         self.key.add_module('proj', create_conv2d(
@@ -169,6 +186,7 @@ def __init__(
             kernel_size=1,
             padding=padding,
             bias=use_bias,
+            **dd,
         ))
 
         self.value = nn.Sequential()
@@ -181,29 +199,37 @@ def __init__(
                 dilation=dilation,
                 padding=padding,
                 depthwise=True,
+                **dd,
             ))
             self.value.add_module('norm', norm_layer(dim))
         self.value.add_module('proj', create_conv2d(
             dim,
             self.value_dim,
             kernel_size=1,
             bias=use_bias,
+            **dd,
         ))
 
         self.attn_drop = nn.Dropout(attn_drop)
 
         self.output = nn.Sequential()
         if self.has_query_strides:
-            self.output.add_module('upsample', nn.Upsample(scale_factor=self.query_strides, mode='bilinear', align_corners=False))
+            self.output.add_module('upsample', nn.Upsample(
+                scale_factor=self.query_strides,
+                mode='bilinear',
+                align_corners=False
+            ))
         self.output.add_module('proj', create_conv2d(
             self.value_dim * self.num_heads,
             dim_out,
             kernel_size=1,
             bias=use_bias,
+            **dd,
         ))
-        self.output.add_module('drop',  nn.Dropout(proj_drop))
+        self.output.add_module('drop', nn.Dropout(proj_drop))
 
         self.einsum = False
+        self.init_weights()
 
     def init_weights(self):
         # using xavier appeared to improve stability for mobilenetv4 hybrid w/ this layer
@@ -304,8 +330,11 @@ def __init__(
             expand_first: bool = False,
             head_first: bool = False,
             attn_drop: float = 0.,
-            proj_drop: float = 0.
+            proj_drop: float = 0.,
+            device=None,
+            dtype=None,
     ):
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         dim_out = dim_out or dim
         dim_attn = dim_out if expand_first else dim
@@ -314,9 +343,9 @@ def __init__(
         self.head_first = head_first
         self.fused_attn = use_fused_attn()
 
-        self.qkv = nn.Conv2d(dim, dim_attn * 3, 1, bias=bias)
+        self.qkv = nn.Conv2d(dim, dim_attn * 3, 1, bias=bias, **dd)
         self.attn_drop = nn.Dropout(attn_drop)
-        self.proj = nn.Conv2d(dim_attn, dim_out, 1, bias=bias)
+        self.proj = nn.Conv2d(dim_attn, dim_out, 1, bias=bias, **dd)
         self.proj_drop = nn.Dropout(proj_drop)
 
     def forward(self, x, attn_mask: Optional[torch.Tensor] = None):
 
@@ -32,7 +32,10 @@ def __init__(
             norm_layer: Optional[Type[nn.Module]] = None,
             act_layer: Optional[Type[nn.Module]] = nn.GELU,
             drop: float = 0.0,
+            device = None,
+            dtype = None
     ):
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         embed_dim = embed_dim or in_features
         out_features = out_features or in_features
@@ -46,28 +49,28 @@ def __init__(
 
         if pos_embed == 'abs':
             assert feat_size is not None
-            self.pos_embed = nn.Parameter(torch.zeros(feat_size, in_features))
+            self.pos_embed = nn.Parameter(torch.zeros(feat_size, in_features, **dd))
         else:
             self.pos_embed = None
 
         self.latent_dim = latent_dim or embed_dim
         self.latent_len = latent_len
-        self.latent = nn.Parameter(torch.zeros(1, self.latent_len, embed_dim))
+        self.latent = nn.Parameter(torch.zeros(1, self.latent_len, embed_dim, **dd))
 
-        self.q = nn.Linear(embed_dim, embed_dim, bias=qkv_bias)
-        self.kv = nn.Linear(embed_dim, embed_dim * 2, bias=qkv_bias)
+        self.q = nn.Linear(embed_dim, embed_dim, bias=qkv_bias, **dd)
+        self.kv = nn.Linear(embed_dim, embed_dim * 2, bias=qkv_bias, **dd)
         if qk_norm:
             qk_norm_layer = norm_layer or nn.LayerNorm
-            self.q_norm = qk_norm_layer(self.head_dim)
-            self.k_norm = qk_norm_layer(self.head_dim)
+            self.q_norm = qk_norm_layer(self.head_dim, **dd)
+            self.k_norm = qk_norm_layer(self.head_dim, **dd)
         else:
             self.q_norm = nn.Identity()
             self.k_norm = nn.Identity()
-        self.proj = nn.Linear(embed_dim, embed_dim)
+        self.proj = nn.Linear(embed_dim, embed_dim, **dd)
         self.proj_drop = nn.Dropout(drop)
 
-        self.norm = norm_layer(out_features) if norm_layer is not None else nn.Identity()
-        self.mlp = Mlp(embed_dim, int(embed_dim * mlp_ratio), act_layer=act_layer)
+        self.norm = norm_layer(out_features, **dd) if norm_layer is not None else nn.Identity()
+        self.mlp = Mlp(embed_dim, int(embed_dim * mlp_ratio), act_layer=act_layer, **dd)
 
         self.init_weights()
 
 
@@ -44,7 +44,10 @@ def __init__(
             pool_type: str = 'token',
             class_token: bool = False,
             drop_rate: float = 0.,
+            device=None,
+            dtype=None,
     ):
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         assert pool_type in ('', 'token')
         self.embed_dim = embed_dim = embed_dim or in_features
@@ -64,20 +67,20 @@ def __init__(
         self.fused_attn = use_fused_attn()
 
         if class_token:
-            self.cls_token = nn.Parameter(torch.zeros(1, embed_dim))
+            self.cls_token = nn.Parameter(torch.zeros(1, embed_dim, **dd))
         else:
             self.cls_token = None
 
         if qkv_separate:
-            self.q = nn.Linear(in_features, embed_dim, bias=qkv_bias)
-            self.k = nn.Linear(in_features, embed_dim, bias=qkv_bias)
-            self.v = nn.Linear(in_features, embed_dim, bias=qkv_bias)
+            self.q = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
+            self.k = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
+            self.v = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
             self.qkv = None
         else:
-            self.qkv = nn.Linear(in_features, embed_dim * 3, bias=qkv_bias)
+            self.qkv = nn.Linear(in_features, embed_dim * 3, bias=qkv_bias, **dd)
         self.drop = nn.Dropout(drop_rate)
-        self.proj = nn.Linear(embed_dim, self.out_features)
-        self.pos_embed = RotaryEmbedding(self.head_dim, in_pixels=False, ref_feat_shape=ref_feat_size)
+        self.proj = nn.Linear(embed_dim, self.out_features, **dd)
+        self.pos_embed = RotaryEmbedding(self.head_dim, in_pixels=False, ref_feat_shape=ref_feat_size, **dd)
 
     def init_weights(self, zero_init_last: bool = False):
         if self.qkv is None:
@@ -171,7 +174,10 @@ def __init__(
             pool_type: str = 'token',
             class_token: bool = False,
             drop_rate: float = 0.,
+            device=None,
+            dtype=None,
     ):
+        dd = {'device': device, 'dtype': dtype}
         super().__init__()
         assert pool_type in ('', 'token')
         self.embed_dim = embed_dim = embed_dim or in_features
@@ -192,21 +198,21 @@ def __init__(
         self.fused_attn = use_fused_attn()
 
         if class_token:
-            self.cls_token = nn.Parameter(torch.zeros(1, embed_dim))
+            self.cls_token = nn.Parameter(torch.zeros(1, embed_dim, **dd))
         else:
             self.cls_token = None
 
         if qkv_separate:
-            self.q = nn.Linear(in_features, embed_dim, bias=qkv_bias)
-            self.k = nn.Linear(in_features, embed_dim, bias=qkv_bias)
-            self.v = nn.Linear(in_features, embed_dim, bias=qkv_bias)
+            self.q = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
+            self.k = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
+            self.v = nn.Linear(in_features, embed_dim, bias=qkv_bias, **dd)
             self.qkv = None
         else:
             self.q = self.k = self.v = None
-            self.qkv = nn.Linear(in_features, embed_dim * 3, bias=qkv_bias)
+            self.qkv = nn.Linear(in_features, embed_dim * 3, bias=qkv_bias, **dd)
         self.drop = nn.Dropout(drop_rate)
-        self.proj = nn.Linear(embed_dim, self.out_features)
-        self.pos_embed = nn.Parameter(torch.zeros(self.seq_len + 1, in_features))
+        self.proj = nn.Linear(embed_dim, self.out_features, **dd)
+        self.pos_embed = nn.Parameter(torch.zeros(self.seq_len + 1, in_features, **dd))
 
         self.init_weights()
 
 
@@ -36,7 +36,10 @@ def __init__(
             filt_size: int = 3,
             stride: int = 2,
             pad_mode: str = 'reflect',
+            device=None,
+            dtype=None
     ) -> None:
+        dd = {'device': device, 'dtype': dtype}
         super(BlurPool2d, self).__init__()
         assert filt_size > 1
         self.channels = channels
@@ -48,7 +51,7 @@ def __init__(
         # (0.5 + 0.5 x)^N => coefficients = C(N,k) / 2^N,  k = 0..N
         coeffs = torch.tensor(
             [comb(filt_size - 1, k) for k in range(filt_size)],
-            dtype=torch.float32,
+            **dd,
         ) / (2 ** (filt_size - 1))  # normalise so coefficients sum to 1
         blur_filter = (coeffs[:, None] * coeffs[None, :])[None, None, :, :]
         if channels is not None:
@@ -71,7 +74,9 @@ def create_aa(
         channels: Optional[int] = None,
         stride: int = 2,
         enable: bool = True,
-        noop: Optional[Type[nn.Module]] = nn.Identity
+        noop: Optional[Type[nn.Module]] = nn.Identity,
+        device=None,
+        dtype=None,
 ) -> nn.Module:
     """ Anti-aliasing """
     if not aa_layer or not enable:
@@ -82,9 +87,9 @@ def create_aa(
         if aa_layer == 'avg' or aa_layer == 'avgpool':
             aa_layer = nn.AvgPool2d
         elif aa_layer == 'blur' or aa_layer == 'blurpool':
-            aa_layer = BlurPool2d
+            aa_layer = partial(BlurPool2d, device=device, dtype=dtype)
         elif aa_layer == 'blurpc':
-            aa_layer = partial(BlurPool2d, pad_mode='constant')
+            aa_layer = partial(BlurPool2d, pad_mode='constant', device=device, dtype=dtype)
 
         else:
             assert False, f"Unknown anti-aliasing layer ({aa_layer})."