fix conflict

MengzhangLI · MengzhangLI · commit 319dbda18c58 · 2023-01-31T20:47:43.000+08:00
diff --git a/configs/_base_/models/segnext.py b/configs/_base_/models/segnext.py
@@ -0,0 +1,41 @@
+# model settings
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+ham_norm_cfg = dict(type='GN', num_groups=32, requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='MSCAN',
+        embed_dims=[32, 64, 160, 256],
+        mlp_ratios=[8, 8, 4, 4],
+        drop_rate=0.0,
+        drop_path_rate=0.1,
+        depths=[3, 3, 5, 2],
+        attention_kernel_sizes=[[5], [1, 7], [1, 11], [1, 21]],
+        attention_kernel_paddings=[2, (0, 3), (0, 5), (0, 10)],
+        norm_cfg=dict(type='BN', requires_grad=True)),
+    decode_head=dict(
+        type='LightHamHead',
+        in_channels=[64, 160, 256],
+        in_index=[1, 2, 3],
+        channels=256,
+        ham_channels=256,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=ham_norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+        ham_kwargs=dict(
+            spatial=True,
+            MD_S=1,
+            MD_D=512,
+            MD_R=64,
+            train_steps=6,
+            eval_steps=7,
+            inv_t=100,
+            eta=0.9,
+            rand_init=True)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
diff --git a/configs/segnext/segnext_tiny_512x512_adamw_160k_ade20.py b/configs/segnext/segnext_tiny_512x512_adamw_160k_ade20.py
@@ -0,0 +1,117 @@
+_base_ = [
+    '../_base_/models/segnext.py',
+    '../_base_/default_runtime.py',
+]
+find_unused_parameters = True
+# model settings
+norm_cfg = dict(type='BN', requires_grad=True)
+ham_norm_cfg = dict(type='GN', num_groups=32, requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        init_cfg=dict(type='Pretrained', checkpoint='/notebooks/mscan_t.pth')),
+    decode_head=dict(
+        type='LightHamHead',
+        in_channels=[64, 160, 256],
+        in_index=[1, 2, 3],
+        channels=256,
+        ham_channels=256,
+        ham_kwargs=dict(MD_R=16),
+        dropout_ratio=0.1,
+        num_classes=150,
+        norm_cfg=ham_norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+
+evaluation = dict(interval=8000, metric='mIoU')
+checkpoint_config = dict(by_epoch=False, interval=8000)
+# optimizer
+# 0.00006 is the lr for bs 16, should use 0.00006/8 as lr (need to test)
+optimizer = dict(
+    type='AdamW',
+    lr=0.00006,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys={
+            'pos_block': dict(decay_mult=0.),
+            'norm': dict(decay_mult=0.),
+            'head': dict(lr_mult=10.)
+        }))
+
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-6,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+
+dataset_type = 'ADE20KDataset'
+data_root = '/notebooks/ADEChallengeData2016'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=True),
+    dict(type='Resize', img_scale=(2048, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='Pad', size=crop_size, pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(2048, 512),
+        # img_ratios=[0.5, 0.75, 1.0, 1.25, 1.5, 1.75],
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='ResizeToMultiple', size_divisor=32),
+            dict(type='RandomFlip'),
+            dict(type='Normalize', **img_norm_cfg),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img']),
+        ])
+]
+data = dict(
+    samples_per_gpu=16,
+    workers_per_gpu=4,
+    train=dict(
+        type='RepeatDataset',
+        times=50,
+        dataset=dict(
+            type=dataset_type,
+            data_root=data_root,
+            img_dir='images/training',
+            ann_dir='annotations/training',
+            pipeline=train_pipeline)),
+    val=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=test_pipeline),
+    test=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=test_pipeline))
+
+optimizer_config = dict()
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=160000)
+checkpoint_config = dict(by_epoch=False, interval=4000)
+evaluation = dict(interval=4000, metric='mIoU')
diff --git a/mmseg/models/backbones/mscan.py b/mmseg/models/backbones/mscan.py
@@ -256,6 +256,7 @@ def forward(self, x):
                 - H (int): Height of x.
                 - W (int): Width of x.
         """
+
         x = self.proj(x)
         _, _, H, W = x.shape
         x = self.norm(x)
diff --git a/mmseg/models/decode_heads/ham_head.py b/mmseg/models/decode_heads/ham_head.py
@@ -1,4 +1,5 @@
 # Copyright (c) OpenMMLab. All rights reserved.
+# Originally from https://github.com/visual-attention-network/segnext
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
@@ -11,22 +12,31 @@
 
 class _MatrixDecomposition2DBase(nn.Module):
 
-    def __init__(self, args=dict()):
+    def __init__(self,
+                 spatial=True,
+                 MD_S=1,
+                 MD_D=512,
+                 MD_R=64,
+                 train_steps=6,
+                 eval_steps=7,
+                 inv_t=100,
+                 eta=0.9,
+                 rand_init=True):
         super().__init__()
 
-        self.spatial = args.setdefault('SPATIAL', True)
+        self.spatial = spatial
 
-        self.S = args.setdefault('MD_S', 1)
-        self.D = args.setdefault('MD_D', 512)
-        self.R = args.setdefault('MD_R', 64)
+        self.S = MD_S
+        self.D = MD_D
+        self.R = MD_R
 
-        self.train_steps = args.setdefault('TRAIN_STEPS', 6)
-        self.eval_steps = args.setdefault('EVAL_STEPS', 7)
+        self.train_steps = train_steps
+        self.eval_steps = eval_steps
 
-        self.inv_t = args.setdefault('INV_T', 100)
-        self.eta = args.setdefault('ETA', 0.9)
+        self.inv_t = inv_t
+        self.eta = eta
 
-        self.rand_init = args.setdefault('RAND_INIT', True)
+        self.rand_init = rand_init
 
         print('spatial', self.spatial)
         print('S', self.S)
@@ -71,14 +81,14 @@ def forward(self, x, return_bases=False):
             D = H * W
             N = C // self.S
             x = x.view(B * self.S, N, D).transpose(1, 2)
-
+        cuda = x.device == torch.device('cuda')
         if not self.rand_init and not hasattr(self, 'bases'):
-            bases = self._build_bases(1, self.S, D, self.R, cuda=True)
+            bases = self._build_bases(1, self.S, D, self.R, cuda=cuda)
             self.register_buffer('bases', bases)
 
         # (S, D, R) -> (B * S, D, R)
         if self.rand_init:
-            bases = self._build_bases(B, self.S, D, self.R, cuda=True)
+            bases = self._build_bases(B, self.S, D, self.R, cuda=cuda)
         else:
             bases = self.bases.repeat(B, 1, 1)
 
@@ -105,7 +115,7 @@ def forward(self, x, return_bases=False):
 class NMF2D(_MatrixDecomposition2DBase):
 
     def __init__(self, args=dict()):
-        super().__init__(args)
+        super().__init__(**args)
 
         self.inv_t = 1