setup backprop

jperl · jperl · commit 97d0c0225c90 · 2018-08-13T19:15:25.000-04:00
diff --git a/notebooks/Linear XOR.ipynb b/notebooks/Linear XOR.ipynb
@@ -2,113 +2,163 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 2,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import numpy as np"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 1,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "bits [0 0] --> parity [0]\n",
+      "bits [0 1] --> parity [1]\n",
+      "bits [1 0] --> parity [1]\n",
+      "bits [1 1] --> parity [0]\n"
+     ]
+    }
+   ],
    "source": [
+    "import numpy as np\n",
+    "\n",
+    "np.random.seed(0)\n",
+    "\n",
     "# bits are our inputs\n",
     "X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])\n",
     "\n",
     "# parities are our labels\n",
-    "Y = np.array([0, 1, 1, 0])"
+    "Y = np.array([[0], [1], [1], [0]])\n",
+    "\n",
+    "for i, bits in enumerate(X):\n",
+    "    print(f'bits {bits} --> parity {Y[i]}')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "bits [0 0] --> parity 0\n",
-      "bits [0 1] --> parity 1\n",
-      "bits [1 0] --> parity 1\n",
-      "bits [1 1] --> parity 0\n"
+      "delta sigmoid [[0.25      ]\n",
+      " [0.19661193]\n",
+      " [0.19661193]\n",
+      " [0.25      ]]\n",
+      "delta sigmoid analytical [[0.25000002]\n",
+      " [0.19661195]\n",
+      " [0.19661195]\n",
+      " [0.25000002]]\n"
      ]
     }
    ],
    "source": [
-    "for i, bits in enumerate(X):\n",
-    "    print(f'bits {bits} --> parity {Y[i]}')"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "def identity(x):\n",
-    "    return x\n",
-    "\n",
     "def sigmoid(x):\n",
-    "    return 1 / (1 + np.exp(-x))"
+    "    return 1 / (1 + np.exp(-x))\n",
+    "\n",
+    "def delta_sigmoid(x):\n",
+    "    # to derive use the +1 trick from http://cs231n.github.io/optimization-2/\n",
+    "    return sigmoid(x) * (1 - sigmoid(x))\n",
+    "\n",
+    "def analytical_gradient(f, x):\n",
+    "    h = 1e-9\n",
+    "    return (f(x + h) - f(x)) / h\n",
+    "\n",
+    "print('delta sigmoid', delta_sigmoid(Y))\n",
+    "print('delta sigmoid analytical', analytical_gradient(sigmoid, Y))"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 3,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loss 0.14451072667400197\n",
+      "loss 0.007930633168167129\n",
+      "loss 0.0031754754752917323\n",
+      "loss 0.0021824385490060365\n"
+     ]
+    }
+   ],
    "source": [
-    "def build_layers(input_dim, hidden_units, activations):\n",
-    "    layers = []    \n",
-    "        \n",
-    "    for i, num_units in enumerate(hidden_units):\n",
-    "        layers.append({\n",
-    "            'weights':  np.random.uniform(size=(input_dim, num_units)),\n",
-    "            'bias': np.zeros((1, num_units)),\n",
-    "            'activation': activations[i],\n",
-    "        })\n",
-    "        \n",
-    "        # the next layers input_dim will be this layers num_units\n",
-    "        # [rows, this_num_units] X [this_num_units, next_num_units] -> [rows, next_num_units]\n",
-    "        input_dim = num_units\n",
+    "# X [4,2]\n",
+    "input_dim = X.shape[-1]\n",
+    "# Y [4,1]\n",
+    "output_dim = Y.shape[-1]\n",
+    "hidden_units = 2\n",
+    "lr = 0.1\n",
+    "\n",
+    "# [2,2]\n",
+    "Whidden = np.random.uniform(size=(input_dim, hidden_units)) # hidden layer\n",
+    "\n",
+    "# [2,1]\n",
+    "Woutput = np.random.uniform(size=(hidden_units, output_dim)) # output layer\n",
+    "\n",
+    "for step in range(10000):\n",
+    "    # forward pass\n",
+    "    # loss = loss(output(activation(hidden(X))))\n",
+    "\n",
+    "    # hidden(X) [4,2]\n",
+    "    hidden = X.dot(Whidden)\n",
+    "    \n",
+    "    # activation(hidden) [4,2]\n",
+    "    activation = sigmoid(hidden)\n",
+    "\n",
+    "    # output(activation) [4,2]x[2,1] -> [4,1]\n",
+    "    output = activation.dot(Woutput)\n",
+    "\n",
+    "    # loss(output) [4,1]\n",
+    "    loss = 0.5 * (output - Y)**2\n",
+    "    if step % 2500 == 0:\n",
+    "        print('loss', np.mean(loss))\n",
+    "    \n",
+    "    # backward pass\n",
+    "    # loss'(output) [4,1]\n",
+    "    dloss_output = output - Y\n",
+    "    \n",
+    "    # loss'(activation) = loss'(output) * output'(activation)\n",
+    "    # [4,1]x[1,2] -> [4,2]\n",
+    "    dloss_activation = dloss_output.dot(Woutput.T)\n",
+    "\n",
+    "    # loss'(hidden) = loss'(activation) * activation'(hidden)\n",
+    "    # [4,2]*[4,2] -> [4,2]\n",
+    "    dloss_hidden = dloss_activation * delta_sigmoid(hidden)\n",
+    "\n",
+    "    # Take a small step in the opposite direction of the gradient \n",
     "    \n",
-    "    return layers\n",
+    "    # loss'(Woutput) = loss'(output) * output'(Woutput)\n",
+    "    # [2,4]x[4,1] -> [2,1]\n",
+    "    dloss_woutput = activation.T.dot(dloss_output)\n",
+    "    Woutput -= dloss_woutput * lr\n",
     "\n",
-    "def forward(x, layers):\n",
-    "    for layer in layers:\n",
-    "        x = x.dot(layer['weights']) + layer['bias']\n",
-    "        x = layer['activation'](x)\n",
-    "    return x"
+    "    # loss'(Whidden) = loss'(hidden) * hidden'(Whidden)\n",
+    "    # [2,4]x[4,2] -> [2,2]\n",
+    "    dloss_whidden = X.T.dot(dloss_hidden)    \n",
+    "    Whidden -= dloss_whidden * lr"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 4,
    "metadata": {},
    "outputs": [
     {
-     "data": {
-      "text/plain": [
-       "array([[0.51424762],\n",
-       "       [0.51508232],\n",
-       "       [0.51745592],\n",
-       "       [0.51824855]])"
-      ]
-     },
-     "execution_count": 9,
-     "metadata": {},
-     "output_type": "execute_result"
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "prediction [-0.08500212] -> label [0]\n",
+      "prediction [0.98169372] -> label [1]\n",
+      "prediction [0.98169457] -> label [1]\n",
+      "prediction [0.07744216] -> label [0]\n"
+     ]
     }
    ],
    "source": [
-    "layers = build_layers(X.shape[-1], hidden_units=[2, 1], activations=[sigmoid, sigmoid])\n",
-    "yhat = forward(X, layers)\n",
-    "\n",
-    "yhat"
+    "for i, prediction in enumerate(output):\n",
+    "    print(f'prediction {prediction} -> label {Y[i]}')"
    ]
   },
   {