update cifar tutorial.

Tiiiger · Tiiiger · commit a4e914e61ef8 · 2019-02-13T23:31:26.000-05:00
diff --git a/examples/CIFAR10_Low_Precision_Training_Example.ipynb b/examples/CIFAR10_Low_Precision_Training_Example.ipynb
@@ -5,12 +5,12 @@
    "metadata": {},
    "source": [
     "# CIFAR10 Low Precision Training Example\n",
-    "In this notebook, we present a quick example of how to simulate training a deep neural network in low precision"
+    "In this notebook, we present a quick example of how to simulate training a deep neural network in low precision with QPyTorch."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 33,
+   "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -25,33 +25,108 @@
     "from qtorch.quant import Quantizer\n",
     "from qtorch.optim import OptimLP\n",
     "from torch.optim import SGD\n",
-    "from qtorch import FloatingPoint"
+    "from qtorch import FloatingPoint\n",
+    "from tqdm import tqdm"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "We first load the data. In this example, we will experiment with CIFAR10."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 20,
+   "execution_count": 2,
+   "metadata": {
+    "scrolled": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Files already downloaded and verified\n",
+      "Files already downloaded and verified\n"
+     ]
+    }
+   ],
+   "source": [
+    "# loading data\n",
+    "ds = torchvision.datasets.CIFAR10\n",
+    "path = os.path.join(\"./data\", \"CIFAR10\")\n",
+    "transform_train = transforms.Compose([\n",
+    "    transforms.RandomCrop(32, padding=4),\n",
+    "    transforms.RandomHorizontalFlip(),\n",
+    "    transforms.ToTensor(),\n",
+    "    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\n",
+    "])\n",
+    "transform_test = transforms.Compose([\n",
+    "    transforms.ToTensor(),\n",
+    "    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\n",
+    "])\n",
+    "train_set = ds(path, train=True, download=True, transform=transform_train)\n",
+    "test_set = ds(path, train=False, download=True, transform=transform_test)\n",
+    "loaders = {\n",
+    "        'train': torch.utils.data.DataLoader(\n",
+    "            train_set,\n",
+    "            batch_size=128,\n",
+    "            shuffle=True,\n",
+    "            num_workers=4,\n",
+    "            pin_memory=True\n",
+    "        ),\n",
+    "        'test': torch.utils.data.DataLoader(\n",
+    "            test_set,\n",
+    "            batch_size=128,\n",
+    "            num_workers=4,\n",
+    "            pin_memory=True\n",
+    "        )\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "We then define the quantization setting we are going to use. In particular, here we follow the setting reported in the paper \"Training Deep Neural Networks with 8-bit Floating Point Numbers\", where the authors propose to use specialized 8-bit and 16-bit floating point format."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
    "metadata": {},
    "outputs": [],
    "source": [
-    "# let's define the quantizers we are using\n",
+    "# define two floating point formats\n",
     "bit_8 = FloatingPoint(exp=5, man=2)\n",
     "bit_16 = FloatingPoint(exp=6, man=9)\n",
+    "\n",
+    "# define quantization functions\n",
     "weight_quant = Quantizer(forward_number=bit_8, backward_number=None,\n",
     "                        forward_rounding=\"nearest\", backward_rounding=\"nearest\")\n",
     "grad_quant = Quantizer(forward_number=bit_8, backward_number=None,\n",
-    "                        forward_rounding=\"nearest\", backward_rounding=\"nearest\")\n",
+    "                        forward_rounding=\"nearest\", backward_rounding=\"stochastic\")\n",
     "momentum_quant = Quantizer(forward_number=bit_16, backward_number=None,\n",
-    "                        forward_rounding=\"nearest\", backward_rounding=\"nearest\")\n",
+    "                        forward_rounding=\"nearest\", backward_rounding=\"stochastic\")\n",
     "acc_quant = Quantizer(forward_number=bit_16, backward_number=None,\n",
     "                        forward_rounding=\"nearest\", backward_rounding=\"nearest\")\n",
+    "\n",
+    "# define a lambda function so that the Quantizer module can be duplicated easily\n",
     "act_error_quant = lambda : Quantizer(forward_number=bit_8, backward_number=bit_8,\n",
     "                        forward_rounding=\"nearest\", backward_rounding=\"nearest\")"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Next, we define a low-precision VGG network. In the definition, we recursively insert quantization module after every convolution layer. Note that the quantization of weight, gradient, momentum, and gradient accumulator are not handled here."
+   ]
+  },
   {
    "cell_type": "code",
-   "execution_count": 23,
+   "execution_count": 4,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -68,7 +143,7 @@
     "            filters = int(v) if use_quant else int(v[:-1])\n",
     "            conv2d = nn.Conv2d(in_channels, filters, kernel_size=3, padding=1)\n",
     "            layers += [conv2d, nn.ReLU(inplace=True)]\n",
-    "            if use_quant: layers += [quant()]\n",
+    "            if use_quant: layers += [quant()] # inserting quantization modules\n",
     "            n += 1\n",
     "            in_channels = filters\n",
     "    return nn.Sequential(*layers)\n",
@@ -99,30 +174,52 @@
     "config = ['64', '64', 'M', '128', '128', 'M', \n",
     "          '256', '256', '256', 'M', '512', '512', '512', 'M', '512', '512', '512', 'M'] # VGG16\n",
     "\n",
-    "model = VGGLP(config, act_error_quant, )"
+    "model = VGGLP(config, act_error_quant)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "device = 'cuda' # change device to 'cpu' if you want to run this example on cpu\n",
+    "model = model.to(device=device)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "We now use the low-precision optimizer wrapper to help define the quantization of weight, gradient, momentum, and gradient accumulator."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
    "metadata": {},
    "outputs": [],
    "source": [
-    "# define optimizer\n",
     "optimizer = SGD(model.parameters(), lr=0.05, momentum=0.9, weight_decay=1e-4)\n",
     "optimizer = OptimLP(optimizer,\n",
-    "                  weight_quant=weight_quant,\n",
-    "                  grad_quant=grad_quant,\n",
-    "                  momentum_quant=momentum_quant\n",
+    "                    weight_quant=weight_quant,\n",
+    "                    grad_quant=grad_quant,\n",
+    "                    momentum_quant=momentum_quant,\n",
+    "                    acc_quant=acc_quant\n",
     ")"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "We can reuse common training scripts without any extra codes to handle quantization."
+   ]
+  },
   {
    "cell_type": "code",
-   "execution_count": 38,
-   "metadata": {
-    "collapsed": true
-   },
+   "execution_count": 7,
+   "metadata": {},
    "outputs": [],
    "source": [
     "def run_epoch(loader, model, criterion, optimizer=None, phase=\"train\"):\n",
@@ -135,12 +232,11 @@
     "\n",
     "    ttl = 0\n",
     "    with torch.autograd.set_grad_enabled(phase==\"train\"):\n",
-    "        for i, (input, target) in enumerate(loader):\n",
-    "            input = input.cuda(async=True)\n",
-    "            target = target.cuda(async=True)\n",
+    "        for i, (input, target) in tqdm(enumerate(loader), total=len(loader)):\n",
+    "            input = input.to(device=device)\n",
+    "            target = target.to(device=device)\n",
     "            output = model(input)\n",
     "            loss = criterion(output, target)\n",
-    "\n",
     "            loss_sum += loss.cpu().item() * input.size(0)\n",
     "            pred = output.data.max(1, keepdim=True)[1]\n",
     "            correct += pred.eq(target.data.view_as(pred)).sum()\n",
@@ -158,66 +254,33 @@
     "    }"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Begin the training process just as usual. Enjoy!"
+   ]
+  },
   {
    "cell_type": "code",
-   "execution_count": 37,
+   "execution_count": 8,
    "metadata": {},
    "outputs": [
     {
-     "name": "stdout",
+     "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Files already downloaded and verified\n",
-      "Files already downloaded and verified\n"
+      "100%|██████████| 391/391 [00:34<00:00, 11.34it/s]\n",
+      "100%|██████████| 79/79 [00:01<00:00, 70.06it/s]\n"
      ]
     }
    ],
    "source": [
-    "# load data\n",
-    "ds = torchvision.datasets.CIFAR10\n",
-    "path = os.path.join(\"./data\", \"CIFAR10\")\n",
-    "transform_train = transforms.Compose([\n",
-    "    transforms.RandomCrop(32, padding=4),\n",
-    "    transforms.RandomHorizontalFlip(),\n",
-    "    transforms.ToTensor(),\n",
-    "    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\n",
-    "])\n",
-    "transform_test = transforms.Compose([\n",
-    "    transforms.ToTensor(),\n",
-    "    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\n",
-    "])\n",
-    "train_set = ds(path, train=True, download=True, transform=transform_train)\n",
-    "test_set = ds(path, train=False, download=True, transform=transform_test)\n",
-    "loaders = {\n",
-    "        'train': torch.utils.data.DataLoader(\n",
-    "            train_set,\n",
-    "            batch_size=128,\n",
-    "            shuffle=True,\n",
-    "            num_workers=4,\n",
-    "            pin_memory=True\n",
-    "        ),\n",
-    "        'test': torch.utils.data.DataLoader(\n",
-    "            test_set,\n",
-    "            batch_size=128,\n",
-    "            num_workers=4,\n",
-    "            pin_memory=True\n",
-    "        )\n",
-    "}"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
-   "outputs": [],
-   "source": [
-    "for epoch in range(start_epoch, 10):\n",
-    "    train_res = utils.run_epoch(loaders['train'], model, criterion,\n",
+    "for epoch in range(1):\n",
+    "    train_res = run_epoch(loaders['train'], model, F.cross_entropy,\n",
     "                                optimizer=optimizer, phase=\"train\")\n",
-    "    test_res = utils.run_epoch(loaders['test'], model, criterion,\n",
-    "                                optimizer=optimizer, phase=\"test\")"
+    "    test_res = run_epoch(loaders['test'], model, F.cross_entropy,\n",
+    "                                optimizer=optimizer, phase=\"eval\")"
    ]
   }
  ],
@@ -237,7 +300,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.8"
+   "version": "3.6.7"
   }
  },
  "nbformat": 4,