ft_acti.py

import os
import torch.nn as nn
from datasets import Breakfast_feat
from torch.utils.data import DataLoader
from tqdm import tqdm
import wandb
import argparse
import shutil
from pathlib import Path
import yaml
from dotmap import DotMap
import pprint
from modules.fusion_module import fusion_base
from test_acti import validate
from utils.KLLoss import KLLoss
from utils.Augmentation import *
from utils.solver import _optimizer, _lr_scheduler
from utils.tools import *
from utils.text_prompt import *
from utils.saving import *


class TextCLIP(nn.Module):
    def __init__(self, model):
        super(TextCLIP, self).__init__()
        self.model = model

    def forward(self, text):
        return self.model.encode_text(text)


class ImageCLIP(nn.Module):
    def __init__(self, model):
        super(ImageCLIP, self).__init__()
        self.model = model

    def forward(self, image):
        return self.model.encode_image(image)


def main():
    global args, best_prec1
    global global_step
    parser = argparse.ArgumentParser()
    parser.add_argument('--config', '-cfg', default='./configs/breakfast/breakfast_acti_ft.yaml')
    parser.add_argument('--log_time', default='')
    parser.add_argument('--name', default='Transcls_ls')
    args = parser.parse_args()
    with open(args.config, 'r') as f:
        config = yaml.load(f)
    working_dir = os.path.join('./exp', config['network']['type'], config['network']['arch'], config['data']['dataset'],
                               args.log_time)
    wandb.init(project=config['network']['type'],
               name='{}_{}_{}_{}_{}'.format(args.log_time, config['network']['type'], config['network']['arch'],
                                         config['data']['dataset'], args.name))
    print('-' * 80)
    print(' ' * 20, "working dir: {}".format(working_dir))
    print('-' * 80)

    print('-' * 80)
    print(' ' * 30, "Config")
    pp = pprint.PrettyPrinter(indent=4)
    pp.pprint(config)
    print('-' * 80)

    config = DotMap(config)

    Path(working_dir).mkdir(parents=True, exist_ok=True)
    shutil.copy(args.config, working_dir)
    shutil.copy('ft_acti.py', working_dir)

    device = "cuda" if torch.cuda.is_available() else "cpu"  # If using GPU then use mixed precision training.

    model, clip_state_dict = clip.load(config.network.arch, device=device, jit=False, tsm=config.network.tsm,
                                       T=config.data.num_segments, dropout=config.network.drop_out,
                                       emb_dropout=config.network.emb_dropout, pretrain=config.network.init,
                                       joint=config.network.joint)  # Must set jit=False for training  ViT-B/32

    fusion_model = fusion_base(config.network.sim_header, clip_state_dict, config.data.num_frames)
    fusion_model_up = fusion_base("Transf_cls", clip_state_dict, config.data.num_segments)
    model_text = TextCLIP(model)
    model_text = torch.nn.DataParallel(model_text).cuda()
    fusion_model = torch.nn.DataParallel(fusion_model).cuda()
    fusion_model_up = torch.nn.DataParallel(fusion_model_up).cuda()
    wandb.watch(model)
    wandb.watch(fusion_model)

    train_data = Breakfast_feat(mode='train', num_frames=config.data.num_frames,
                                n_split=config.data.n_split, n_seg=config.data.num_segments)
    train_loader = DataLoader(train_data, batch_size=config.data.batch_size, num_workers=config.data.workers,
                              shuffle=True, pin_memory=True, drop_last=True)
    val_data = Breakfast_feat(mode='val', num_frames=config.data.num_frames,
                              n_split=config.data.n_split, n_seg=config.data.num_segments)
    val_loader = DataLoader(val_data, batch_size=config.data.batch_size, num_workers=config.data.workers, shuffle=False,
                            pin_memory=True, drop_last=False)

    if device == "cpu":
        model_text.float()
        # model_image.float()
    else:
        clip.model.convert_weights(
            model_text)  # Actually this line is unnecessary since clip by default already on float16
        # clip.model.convert_weights(model_image)

    loss_img = KLLoss()
    loss_txt = KLLoss()

    start_epoch = config.solver.start_epoch

    if config.pretrain:
        if os.path.isfile(config.pretrain):
            print(("=> loading checkpoint '{}'".format(config.pretrain)))
            checkpoint = torch.load(config.pretrain)
            model.load_state_dict(checkpoint['model_state_dict'])
            fusion_model.load_state_dict(checkpoint['fusion_model_state_dict'])
            del checkpoint
        else:
            print(("=> no checkpoint found at '{}'".format(config.resume)))

    if config.resume:
        if os.path.isfile(config.resume):
            print(("=> loading checkpoint '{}'".format(config.resume)))
            checkpoint = torch.load(config.resume)
            model.load_state_dict(checkpoint['model_state_dict'])
            fusion_model.load_state_dict(checkpoint['fusion_model_state_dict'])
            start_epoch = checkpoint['epoch']
            print(("=> loaded checkpoint '{}' (epoch {})"
                   .format(config.evaluate, start_epoch)))
            del checkpoint
        else:
            print(("=> no checkpoint found at '{}'".format(config.pretrain)))

    classes, num_text_aug, text_dict = text_prompt_single(train_data.classes)

    optimizer = _optimizer(config, model, fusion_model)
    lr_scheduler = _lr_scheduler(config, optimizer)

    scale = 768 ** -0.5
    proj = nn.Parameter(scale * torch.randn(768, 512)).half().to(device)

    best_prec1 = 0.0
    if config.solver.evaluate:
        prec1 = validate(start_epoch, val_loader, classes, device, model, fusion_model, config, num_text_aug, proj)
        return

    for k, v in model.named_parameters():
        print('{}: {}'.format(k, v.requires_grad))
    for epoch in range(start_epoch, config.solver.epochs):
        # model_image.train()
        model_text.train()
        fusion_model.train()
        fusion_model_up.train()
        for kkk, (image_embedding, list_id) in enumerate(tqdm(train_loader)):
            if config.solver.type != 'monitor':
                if (kkk + 1) == 1 or (kkk + 1) % 10 == 0:
                    lr_scheduler.step(epoch + kkk / len(train_loader))
            optimizer.zero_grad()

            # images = images.view((-1, config.data.num_segments, 3) + images.size()[-2:])
            b, n, f, d = image_embedding.size()
            text_id = numpy.random.randint(num_text_aug, size=len(list_id))
            texts = torch.stack([text_dict[j][i, :] for i, j in zip(list_id, text_id)])
            image_embedding = image_embedding.to(device, non_blocking=True)
            # image_embedding = image_embedding.mean(dim=2, keepdim=False).half()
            image_embedding = image_embedding.half() @ proj


            # images = images.to(device).view(-1, c, h,
            #                                 w)  # omit the Image.fromarray if the images already in PIL format,
            # change this line to images=list_image if using preprocess inside the dataset class
            texts = texts.to(device, non_blocking=True)

            # image_embedding = model_image(images)
            # image_embedding = image_embedding.view(b, t, -1)
            image_embedding = image_embedding.view(-1, f, 512)
            image_embedding = fusion_model(image_embedding)
            image_embedding = image_embedding.view(b, n, 512)
            image_embedding = fusion_model_up(image_embedding)

            text_embedding = model_text(texts)

            if config.network.fix_text:
                text_embedding.detach_()

            logit_scale = model.logit_scale.exp()
            logits_per_image, logits_per_text = create_logits(image_embedding, text_embedding, logit_scale)

            ground_truth = torch.tensor(gen_label(list_id), dtype=image_embedding.dtype, device=device)
            loss_imgs = loss_img(logits_per_image, ground_truth)
            loss_texts = loss_txt(logits_per_text, ground_truth)
            total_loss = (loss_imgs + loss_texts) / 2
            wandb.log({"train_total_loss": total_loss, "lr": optimizer.param_groups[0]['lr'],
                       "train_loss_imgs": loss_imgs, "train_loss_texts": loss_texts})
            total_loss.backward()

            if device == "cpu":
                optimizer.step()
            else:
                convert_models_to_fp32(model)
                optimizer.step()
                clip.model.convert_weights(model)

        # if epoch % config.logging.eval_freq == 0:  # and epoch>0
        prec1 = validate(epoch, val_loader, classes, device, model, fusion_model, fusion_model_up, config, num_text_aug, proj)
        wandb.log({"val_acc": prec1})

        is_best = prec1 > best_prec1
        best_prec1 = max(prec1, best_prec1)
        print('Testing: {}/{}'.format(prec1, best_prec1))
        print('Saving:')
        filename = "{}/last_model.pt".format(working_dir)

        epoch_saving(epoch, model, fusion_model, optimizer, filename)
        if is_best:
            best_saving(working_dir, epoch, model, fusion_model, optimizer)


if __name__ == '__main__':
    main()