Add image pre-training code and docs

Atcold · Atcold · commit aad157134f2a · 2017-06-14T15:17:00.000-04:00
diff --git a/README.md b/README.md
@@ -8,14 +8,15 @@ Check the [project website](https://engineering.purdue.edu/elab/CortexNet/) for
 The project consists of the following folders and files:
 
  - [`data/`](data): contains *Bash* scripts and a *Python* class definition inherent video data loading;
+ - [`image-pretraining/`](image-pretraining/): hosts the code for pre-training TempoNet's discriminative branch;
  - [`model/`](model): stores several network architectures, including [*PredNet*](https://coxlab.github.io/prednet/), an additive feedback *Model01*, and a modulatory feedback *Model02* ([*CortexNet*](https://engineering.purdue.edu/elab/CortexNet/));
- - [`notebook/`](notebook): collection of *Jupyter Notebook*s for data exploration and results visualisation (best view with [this](https://userstyles.org/styles/98208/jupyter-notebook-dark-originally-from-ipython) and [this](https://userstyles.org/styles/37035/github-dark) dark styles); 
- - [`utils/`](utils): scripts for 
+ - [`notebook/`](notebook): collection of *Jupyter Notebook*s for data exploration and results visualisation (best view with [this](https://userstyles.org/styles/98208/jupyter-notebook-dark-originally-from-ipython) and [this](https://userstyles.org/styles/37035/github-dark) dark styles);
+ - [`utils/`](utils): scripts for
    - (current or former) training error plotting,
    - experiments `diff`,
    - multi-node synchronisation,
    - generative predictions visualisation,
-   - network architecture graphing;   
+   - network architecture graphing;
  - `results@`: link to the location where experimental results will be saved within 3-digit folders;
  - [`new_experiment.sh*`](new_experiment.sh): creates a new experiment folder, updates `last@`, prints a memo about last used settings;
  - `last@`: symbolic link pointing to a new results sub-directory created by `new_experiment.sh`;
@@ -68,7 +69,7 @@ Therefore, type `CUDA_VISIBLE_DEVICES=n` just before `python ...` in the followi
  + Use [`data/resize_and_split.sh`](data/resize_and_split.sh) to prepare your (video) data for training.
    It resizes videos present in folders of folders (*i.e.* directory of classes) and may split them into training and validation set.
    May also skip short videos and trim longer ones.
-   Check [`data/README.md`](data/README.md) for more details.
+   Check [`data/README.md`](data/README.md#matchnet-mode) for more details.
  + Run the [`main.py`](main.py) script to start training.
    Use `-h` to print the command line interface (CLI) arguments help.
 
@@ -79,16 +80,17 @@ python -u main.py --mode MatchNet <CLI arguments> | tee last/train.log
 ## Train *TempoNet*
 
  + Download *e-VDS35* (*e.g.* `e-VDS35-May17.tar`) from [here](https://engineering.purdue.edu/elab/eVDS/).
+ + Pre-train the forward branch (see [`image-pretraining/`](image-pretraining)) on an image data set (*e.g.* `33-image-set.tar` from [here](https://engineering.purdue.edu/elab/eVDS/));
  + Use [`data/resize_and_sample.sh`](data/resize_and_sample.sh) to prepare your (video) data for training.
    It resizes videos present in folders of folders (*i.e.* directory of classes) and samples them.
    Videos are then distributed across training and validation set.
    May also skip short videos and trim longer ones.
-   Check [`data/README.md`](data/README.md) for more details.
+   Check [`data/README.md`](data/README.md#temponet-mode) for more details.
  + Run the [`main.py`](main.py) script to start training.
    Use `-h` to print the CLI arguments help.
 
 ```bash
-python -u main.py --mode MatchNet <CLI arguments> | tee last/train.log
+python -u main.py --mode TempoNet --pre-trained <path> <CLI args> | tee last/train.log
 ```
 
 ## GPU selection
diff --git a/image-pretraining/README.md b/image-pretraining/README.md
@@ -1,28 +1,24 @@
 # Image pre-training
 
-Find the original code at [PyTorch's example](https://github.com/pytorch/examples/tree/master/imagenet).
+Find the original code at [PyTorch ImageNet example](https://github.com/pytorch/examples/tree/master/imagenet).  
 This adaptation trains the discriminative branch of CortexNet for TempoNet.
 
 ## Training
 
-To train a model, run `main.py` with the desired model architecture and the path to the ImageNet dataset:
+To train the discriminative branch of CortexNet, run `main.py` with the path to an image data set:
 
 ```bash
-python main.py -a resnet18 [imagenet-folder with train and val folders]
+python main.py <image data path> | tee train.log
 ```
 
-The default learning rate schedule starts at 0.1 and decays by a factor of 10 every 30 epochs. This is appropriate for ResNet and models with batch normalization, but too high for AlexNet and VGG. Use 0.01 as the initial learning rate for AlexNet or VGG:
-
-```bash
-python main.py -a alexnet --lr 0.01 [imagenet-folder with train and val folders]
-```
+The default learning rate schedule starts at 0.1 and decays by a factor of 10 every 30 epochs.
 
 ## Usage
 
 ```
-usage: main.py [-h] [--arch ARCH] [-j N] [--epochs N] [--start-epoch N] [-b N]
-               [--lr LR] [--momentum M] [--weight-decay W] [--print-freq N]
-               [--resume PATH] [-e] [--pretrained]
+usage: main.py [-h] [-j N] [--epochs N] [--start-epoch N] [-b N] [--lr LR]
+               [--momentum M] [--weight-decay W] [--print-freq N]
+               [--resume PATH] [-e] [--pretrained] [--size [S [S ...]]]
                DIR
 
 PyTorch ImageNet Training
@@ -32,10 +28,6 @@ positional arguments:
 
 optional arguments:
   -h, --help            show this help message and exit
-  --arch ARCH, -a ARCH  model architecture: alexnet | resnet | resnet101 |
-                        resnet152 | resnet18 | resnet34 | resnet50 | vgg |
-                        vgg11 | vgg11_bn | vgg13 | vgg13_bn | vgg16 | vgg16_bn
-                        | vgg19 | vgg19_bn (default: resnet18)
   -j N, --workers N     number of data loading workers (default: 4)
   --epochs N            number of total epochs to run
   --start-epoch N       manual epoch number (useful on restarts)
@@ -49,4 +41,5 @@ optional arguments:
   --resume PATH         path to latest checkpoint (default: none)
   -e, --evaluate        evaluate model on validation set
   --pretrained          use pre-trained model
+  --size [S [S ...]]    number and size of hidden layers
 ```
diff --git a/image-pretraining/main.py b/image-pretraining/main.py
@@ -22,11 +22,6 @@
 parser = argparse.ArgumentParser(description='PyTorch ImageNet Training')
 parser.add_argument('data', metavar='DIR',
                     help='path to dataset')
-parser.add_argument('--arch', '-a', metavar='ARCH', default='resnet18',
-                    choices=model_names,
-                    help='model architecture: ' +
-                        ' | '.join(model_names) +
-                        ' (default: resnet18)')
 parser.add_argument('-j', '--workers', default=4, type=int, metavar='N',
                     help='number of data loading workers (default: 4)')
 parser.add_argument('--epochs', default=90, type=int, metavar='N',
@@ -49,99 +44,97 @@
                     help='evaluate model on validation set')
 parser.add_argument('--pretrained', dest='pretrained', action='store_true',
                     help='use pre-trained model')
+parser.add_argument('--size', type=int, default=(3, 32, 64, 128, 256, 256, 256), nargs='*',
+                    help='number and size of hidden layers', metavar='S')
 
 best_prec1 = 0
 
 
 def main():
     global args, best_prec1
     args = parser.parse_args()
+    args.size = tuple(args.size)
 
     # create model
-    if args.pretrained:
-        print("=> using pre-trained model '{}'".format(args.arch))
-        model = models.__dict__[args.arch](pretrained=True)
-    else:
-        print("=> creating model '{}'".format(args.arch))
-        model = models.__dict__[args.arch]()
-
-    if args.arch.startswith('alexnet') or args.arch.startswith('vgg'):
-        model.features = torch.nn.DataParallel(model.features)
-        model.cuda()
-    else:
-        model = torch.nn.DataParallel(model).cuda()
+    from model.Model02 import Model02 as Model
 
-    # define loss function (criterion) and optimizer
-    criterion = nn.CrossEntropyLoss().cuda()
+    class Capsule(nn.Module):
 
-    optimizer = torch.optim.SGD(model.parameters(), args.lr,
-                                momentum=args.momentum,
-                                weight_decay=args.weight_decay)
+        def __init__(self):
+            super().__init__()
+            nb_of_classes = 33  # 970 (vid) or 35 (vid obj) or 33 (imgs)
+            self.inner_model = Model(args.size + (nb_of_classes,), (256, 256))
 
-   # optionally resume from a checkpoint
-    if args.resume:
-        if os.path.isfile(args.resume):
-            print("=> loading checkpoint '{}'".format(args.resume))
-            checkpoint = torch.load(args.resume)
-            args.start_epoch = checkpoint['epoch']
-            best_prec1 = checkpoint['best_prec1']
-            model.load_state_dict(checkpoint['state_dict'])
-            optimizer.load_state_dict(checkpoint['optimizer'])
-            print("=> loaded checkpoint '{}' (epoch {})"
-                  .format(args.resume, checkpoint['epoch']))
-        else:
-            print("=> no checkpoint found at '{}'".format(args.resume))
+        def forward(self, x):
+            (_, _), (_, video_index) = self.inner_model(x, None)
+            return video_index
+
+    model = Capsule()
+
+    model = torch.nn.DataParallel(model).cuda()
 
     cudnn.benchmark = True
 
     # Data loading code
     traindir = os.path.join(args.data, 'train')
     valdir = os.path.join(args.data, 'val')
-    normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
-                                     std=[0.229, 0.224, 0.225])
+#    normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
+#                                     std=[0.229, 0.224, 0.225])
 
-    train_loader = torch.utils.data.DataLoader(
-        datasets.ImageFolder(traindir, transforms.Compose([
-            transforms.RandomSizedCrop(224),
-            transforms.RandomHorizontalFlip(),
+    train_data = datasets.ImageFolder(traindir, transforms.Compose([
+            transforms.CenterCrop(256),
             transforms.ToTensor(),
-            normalize,
-        ])),
+        ]))
+    train_loader = torch.utils.data.DataLoader(
+        train_data,
         batch_size=args.batch_size, shuffle=True,
-        num_workers=args.workers, pin_memory=True)
+        num_workers=args.workers, pin_memory=True
+    )
 
+    val_data = datasets.ImageFolder(valdir, transforms.Compose([transforms.CenterCrop(256), transforms.ToTensor(), ]))
     val_loader = torch.utils.data.DataLoader(
-        datasets.ImageFolder(valdir, transforms.Compose([
-            transforms.Scale(256),
-            transforms.CenterCrop(224),
-            transforms.ToTensor(),
-            normalize,
-        ])),
+        val_data,
         batch_size=args.batch_size, shuffle=False,
-        num_workers=args.workers, pin_memory=True)
+        num_workers=args.workers, pin_memory=True
+    )
+
+    # define loss function (criterion) and optimizer
+    class_count = [0] * len(train_data.classes)
+    for i in train_data.imgs: class_count[i[1]] += 1
+    train_crit_weight = torch.Tensor(class_count)
+    train_crit_weight.div_(train_crit_weight.mean()).pow_(-1)
+    train_criterion = nn.CrossEntropyLoss(train_crit_weight).cuda()
+
+    class_count = [0] * len(val_data.classes)
+    for i in val_data.imgs: class_count[i[1]] += 1
+    val_crit_weight = torch.Tensor(class_count)
+    val_crit_weight.div_(val_crit_weight.mean()).pow_(-1)
+    val_criterion = nn.CrossEntropyLoss(val_crit_weight).cuda()
+
+    optimizer = torch.optim.SGD(model.parameters(), args.lr,
+                                momentum=args.momentum,
+                                weight_decay=args.weight_decay)
 
     if args.evaluate:
-        validate(val_loader, model, criterion)
+        validate(val_loader, model, val_criterion)
         return
 
     for epoch in range(args.start_epoch, args.epochs):
         adjust_learning_rate(optimizer, epoch)
 
         # train for one epoch
-        train(train_loader, model, criterion, optimizer, epoch)
+        train(train_loader, model, train_criterion, optimizer, epoch)
 
         # evaluate on validation set
-        prec1 = validate(val_loader, model, criterion)
+        prec1 = validate(val_loader, model, val_criterion)
 
         # remember best prec@1 and save checkpoint
         is_best = prec1 > best_prec1
         best_prec1 = max(prec1, best_prec1)
         save_checkpoint({
             'epoch': epoch + 1,
-            'arch': args.arch,
             'state_dict': model.state_dict(),
             'best_prec1': best_prec1,
-            'optimizer' : optimizer.state_dict(),
         }, is_best)
 
 
diff --git a/main.py b/main.py
@@ -135,7 +135,7 @@ def main():
 
     if args.pre_trained:
         print('Load pre-trained weights')
-        # args.pre_trained = 'model/model02D-33IS/model_best.pth.tar'
+        # args.pre_trained = 'image-pretraining/model02D-33IS/model_best.pth.tar'
         dict_33 = torch.load(args.pre_trained)['state_dict']
 
         def load_state_dict(new_model, state_dict):