Add quick comparison of pandas groupby, pivot_table and crosstab functions

yaph · yaph · commit f4ba3aa02049 · 2019-05-18T21:33:05.000+02:00
diff --git a/pandas-groupby-pivot-crosstab.ipynb b/pandas-groupby-pivot-crosstab.ipynb
@@ -0,0 +1,217 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 62,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>A</th>\n",
+       "      <th>B</th>\n",
+       "      <th>C</th>\n",
+       "      <th>D</th>\n",
+       "      <th>E</th>\n",
+       "      <th>F</th>\n",
+       "      <th>G</th>\n",
+       "      <th>H</th>\n",
+       "      <th>I</th>\n",
+       "      <th>J</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>52</td>\n",
+       "      <td>93</td>\n",
+       "      <td>15</td>\n",
+       "      <td>72</td>\n",
+       "      <td>61</td>\n",
+       "      <td>21</td>\n",
+       "      <td>83</td>\n",
+       "      <td>87</td>\n",
+       "      <td>75</td>\n",
+       "      <td>75</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>88</td>\n",
+       "      <td>24</td>\n",
+       "      <td>3</td>\n",
+       "      <td>22</td>\n",
+       "      <td>53</td>\n",
+       "      <td>2</td>\n",
+       "      <td>88</td>\n",
+       "      <td>30</td>\n",
+       "      <td>38</td>\n",
+       "      <td>2</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>64</td>\n",
+       "      <td>60</td>\n",
+       "      <td>21</td>\n",
+       "      <td>33</td>\n",
+       "      <td>76</td>\n",
+       "      <td>58</td>\n",
+       "      <td>22</td>\n",
+       "      <td>89</td>\n",
+       "      <td>49</td>\n",
+       "      <td>91</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>59</td>\n",
+       "      <td>42</td>\n",
+       "      <td>92</td>\n",
+       "      <td>60</td>\n",
+       "      <td>80</td>\n",
+       "      <td>15</td>\n",
+       "      <td>62</td>\n",
+       "      <td>62</td>\n",
+       "      <td>47</td>\n",
+       "      <td>62</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>51</td>\n",
+       "      <td>55</td>\n",
+       "      <td>64</td>\n",
+       "      <td>3</td>\n",
+       "      <td>51</td>\n",
+       "      <td>7</td>\n",
+       "      <td>21</td>\n",
+       "      <td>73</td>\n",
+       "      <td>39</td>\n",
+       "      <td>18</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "    A   B   C   D   E   F   G   H   I   J\n",
+       "0  52  93  15  72  61  21  83  87  75  75\n",
+       "1  88  24   3  22  53   2  88  30  38   2\n",
+       "2  64  60  21  33  76  58  22  89  49  91\n",
+       "3  59  42  92  60  80  15  62  62  47  62\n",
+       "4  51  55  64   3  51   7  21  73  39  18"
+      ]
+     },
+     "execution_count": 62,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "from string import ascii_uppercase\n",
+    "\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "\n",
+    "cols = list(ascii_uppercase[:10])\n",
+    "np.random.seed(42)\n",
+    "data = np.random.randint(1, 100, size=(100_000, 10))\n",
+    "df = pd.DataFrame(data, columns=cols)\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 63,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "8.99 ms ± 91.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%timeit\n",
+    "# groupby count values are floats\n",
+    "df.groupby(['A', 'B'])['C'].count().unstack().fillna(0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 64,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "35.7 ms ± 265 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%timeit\n",
+    "# pivot_table count values are integers\n",
+    "df.pivot_table(values='C', index='A', columns='B', aggfunc='count', fill_value=0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 65,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "79.2 ms ± 423 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%timeit\n",
+    "# crosstab count values are integers\n",
+    "pd.crosstab(df.A, df.B)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}