aromanenko
diff --git a/‎DFA_forecast.ipynb‎
Lines changed: 2650 additions & 481 deletions b/‎DFA_forecast.ipynb‎
Lines changed: 2650 additions & 481 deletions
diff --git a/‎DFA_func.ipynb‎
Lines changed: 180 additions & 34 deletions b/‎DFA_func.ipynb‎
Lines changed: 180 additions & 34 deletions
diff --git a/‎data/losses_dict.pickle‎
1.47 MB b/‎data/losses_dict.pickle‎
1.47 MB
diff --git a/‎data/pred_dict.pickle‎
24.4 MB b/‎data/pred_dict.pickle‎
24.4 MB
diff --git a/‎data/train.csv‎ ‎data/retail_dataset.csv‎data/train.csv renamed to data/retail_dataset.csv b/‎data/train.csv‎ ‎data/retail_dataset.csv‎data/train.csv renamed to data/retail_dataset.csv
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 24,
    "id": "ba5efd61",
    "metadata": {},
    "outputs": [],
@@ -14,10 +14,12 @@
     "from statsmodels.tsa.forecasting.theta import ThetaModel\n",
     "from scipy.optimize import fsolve\n",
     "from scipy.special import rel_entr, kl_div\n",
+    "from sklearn.model_selection import ParameterGrid\n",
     "from tqdm.notebook import tqdm\n",
     "\n",
     "import matplotlib.pyplot as plt\n",
-    "plt.style.use('fivethirtyeight')\n",
+    "# plt.style.use('fivethirtyeight')\n",
+    "# plt.style.use('seaborn')\n",
     "\n",
     "import warnings\n",
     "warnings.filterwarnings('ignore')"
@@ -30,7 +32,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "def get_density_forecast(ts, horizon, base_alg, base_params={}, fit_params={},\n",
+    "def get_density_forecast(ts, horizon, base_alg, base_params={}, fit_params={}, exog=None,\n",
     "                         bins='auto', omega=None, fittedvalues=False):\n",
     "    \"\"\"\n",
     "    Returns a list of density dictionaries {'bins': np.array, 'probs': np.array, 'dotted_forecast': float}.\n",
@@ -53,8 +55,11 @@
     "    \n",
     "    if omega is not None:\n",
     "        bins = omega\n",
-    "    \n",
-    "    alg = base_alg(ts, **base_params).fit(**fit_params)\n",
+    "        \n",
+    "    if base_alg == ARIMA:\n",
+    "        alg = base_alg(ts, exog, **base_params).fit(**fit_params)\n",
+    "    else:\n",
+    "        alg = base_alg(ts, **base_params).fit(**fit_params)\n",
     "    \n",
     "    if fittedvalues:\n",
     "        alg_preds = alg.predict(start=0, end=len(ts) + horizon - 1)\n",
@@ -286,7 +291,7 @@
    "outputs": [],
    "source": [
     "def aggregating_algorithm(ts, horizon, base_alg_list, bins=10, omega_mode=\"basic\",\n",
-    "                          loss_function=brier_loss, m=2, p=2, weights=None, eta=1):\n",
+    "                          loss_function=brier_loss, exog=None, m=2, p=2, weights=None, eta=1):\n",
     "    \"\"\"\n",
     "    Returns density dictionary {'bins': np.array, 'probs': np.array, 'dotted_forecast': float}.\n",
     "    \n",
@@ -318,7 +323,7 @@
     "    i = 0\n",
     "    for base_alg, base_alg_params, fit_alg_params in base_alg_list:\n",
     "        BA_preds[i] = get_density_forecast(ts, horizon, base_alg, base_params=base_alg_params,\n",
-    "                                           fit_params=fit_alg_params, omega=omega, fittedvalues=True)\n",
+    "                                           fit_params=fit_alg_params, omega=omega, exog=exog, fittedvalues=True)\n",
     "        i += 1\n",
     "        \n",
     "        \n",
@@ -360,14 +365,14 @@
    "outputs": [],
    "source": [
     "def get_optim_m(ts, base_alg_list, omega_mode=\"basic\",\n",
-    "                bins=10, p=2):\n",
+    "                exog=None, bins=10, p=2):\n",
     "    best_m = 0\n",
     "    best_loss = 1000\n",
     "    AA_losses = {}\n",
     "    # (np.linspace(0.1, 10, 100),\n",
     "    for m in tqdm(np.linspace(0.5, 10, 20), leave=False):\n",
     "        AA_preds = aggregating_algorithm(ts, 0, base_alg_list,\n",
-    "                                         bins=bins, omega_mode=omega_mode, m=m, p=p)\n",
+    "                                         bins=bins, omega_mode=omega_mode, exog=exog, m=m, p=p)\n",
     "        AA_losses[m] = []\n",
     "        for i in range(len(ts.values)):\n",
     "            AA_losses[m].append((brier_loss(ts.values[i], AA_preds[i])))\n",
@@ -378,27 +383,105 @@
     "            best_loss = loss\n",
     "            \n",
     "    n_bins = AA_preds[0]['probs'].size\n",
-    "    return best_m, best_loss, n_bins"
+    "    return best_m, best_loss, n_bins, AA_losses"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 14,
+   "id": "76091910",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def plot_optim_m(all_losses_dict, best_m, ax=plt):\n",
+    "    all_losses = [(key, np.mean(values)) for key, values in all_losses_dict.items()]\n",
+    "    m_list, loss_list = zip(*all_losses)\n",
+    "\n",
+    "    ax.plot(m_list, loss_list)\n",
+    "    \n",
+    "    x, y = best_m, np.mean(all_losses_dict[best_m])\n",
+    "    ax.scatter(x, y, s=70, c=\"orange\", zorder=3)\n",
+    "    ax.text(x - 0.4, y + 0.02, '({}, {})'.format(x, round(y, 2)));"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 77,
+   "id": "4fd425d8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_opt_arima(endog, exog, grid_params):\n",
+    "    opt_model = {'opt_params': {'order': (0, 0, 0), 'seasonal_order': (0, 0, 0, 0)},\n",
+    "                 'opt_bic': 10**6, 'opt_model': None}\n",
+    "    \n",
+    "    # 'opt_params': {'p': 0, 'd':0, 'q': 0, 'P': 0, 'D':0, 'Q': 0, 's': 0}\n",
+    "\n",
+    "    grid = ParameterGrid(grid_params)\n",
+    "    for params in tqdm(grid, leave=False):\n",
+    "        try:\n",
+    "            arima = ARIMA(endog,\n",
+    "                      exog,\n",
+    "                      order=(params['p'], params['d'], params['q']),\n",
+    "                      seasonal_order=(params['P'], params['D'], params['Q'], params['s'])).fit()\n",
+    "        except:\n",
+    "            print(\"LU decomposition error\")\n",
+    "            continue\n",
+    "\n",
+    "        if arima.bic < opt_model['opt_bic']:\n",
+    "            opt_model['opt_params']['order'] = (params['p'], params['d'], params['q'])\n",
+    "            opt_model['opt_params']['seasonal_order'] = (params['P'], params['D'], params['Q'], params['s'])\n",
+    "            opt_model['opt_bic'] = arima.bic\n",
+    "            opt_model['opt_model'] = arima\n",
+    "    \n",
+    "    return opt_model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b9d06247",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_auto_base_alg_list(endog, exog, grid_params):\n",
+    "    auto_base_alg_list = []\n",
+    "    \n",
+    "    opt_arima = get_opt_arima(endog, exog, grid_params)\n",
+    "    auto_base_alg_list.append((ARIMA, opt_arima['opt_params'], {}))\n",
+    "    \n",
+    "    SES = ExponentialSmoothing(endog).fit(optimized=True)\n",
+    "    auto_base_alg_list.append((ExponentialSmoothing, {},\n",
+    "                               {'smoothing_level': SES.params['smoothing_level']}))\n",
+    "    \n",
+    "    ES_add7 = ExponentialSmoothing(endog, seasonal=\"add\",\n",
+    "                                   seasonal_periods=7).fit(optimized=True)\n",
+    "    auto_base_alg_list.append((ExponentialSmoothing, {\"seasonal\": \"add\", \"seasonal_periods\": 7},\n",
+    "                               {'smoothing_level': ES_add7.params['smoothing_level'],\n",
+    "                                'smoothing_seasonal': ES_add7.params['smoothing_seasonal']}))\n",
+    "    \n",
+    "    return auto_base_alg_list"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 136,
    "id": "813a429f",
    "metadata": {},
    "outputs": [],
    "source": [
-    "def plot_losses(ts, horizon, base_alg_list, omega_mode, best_m, ax, bins=10, title='', legend=[]):\n",
+    "def plot_losses(ts, horizon, base_alg_list, omega_mode, best_m, ax, bins=10, exog=None,\n",
+    "                title='', legend=[], number_to_plot=None):\n",
     "    omega = get_omega(ts, mode=omega_mode, bins=bins)\n",
     "    \n",
     "    pred_dict = {}\n",
     "    i = 1\n",
     "    for base_alg, base_params, fit_params in base_alg_list:\n",
     "        pred_dict[f\"alg{i}\"] = get_density_forecast(ts, horizon, base_alg, base_params, fit_params,\n",
-    "                                                    bins=bins, omega=omega, fittedvalues=True)\n",
+    "                                                    bins=bins, omega=omega, exog=exog, fittedvalues=True)\n",
     "        i += 1\n",
     "    \n",
-    "    pred_dict[\"AA\"] = aggregating_algorithm(ts, horizon, base_alg_list,\n",
+    "    pred_dict[\"AA\"] = aggregating_algorithm(ts, horizon, base_alg_list, exog=exog,\n",
     "                                            bins=bins, omega_mode=omega_mode, m=best_m)\n",
     "\n",
     "    losses_dict = {key : [] for key in pred_dict.keys()}\n",
@@ -418,59 +501,104 @@
     "        print(\"Theoretical bound met\")\n",
     "    else:\n",
     "        print(f\"Theoretical bound not met: {tb_errors / ts.values.size}% violations\")\n",
+    "        \n",
+    "    losses_dict_sorted = {k: v for k, v in sorted(losses_dict.items(), key=lambda item: item[1].mean())}\n",
     "    \n",
-    "    for alg in losses_dict.keys():\n",
-    "        ax.plot(ts.index, losses_dict[alg])\n",
+    "    if not number_to_plot:\n",
+    "        number_to_plot = len(base_alg_list)\n",
+    "    \n",
+    "    real_legend = []\n",
+    "    i = 0\n",
+    "    for alg in losses_dict_sorted.keys():\n",
+    "        if i < number_to_plot:\n",
+    "            if alg == \"AA\":\n",
+    "                continue\n",
+    "            ax.plot(ts.index, losses_dict_sorted[alg])\n",
+    "            i += 1\n",
+    "            real_legend.append(legend[int(alg[-1]) - 1])\n",
+    "            print(f\"{legend[int(alg[-1]) - 1]} mean loss: {losses_dict_sorted[alg].mean()}\")\n",
+    "        else:\n",
+    "            break\n",
+    "        \n",
+    "    ax.plot(ts.index, losses_dict_sorted['AA'])\n",
+    "    print(f\"AA mean loss: {losses_dict_sorted['AA'].mean()}\")\n",
+    "    real_legend.append('AA')\n",
     "    ax.plot(ts.index, theoretical_bound)\n",
+    "    real_legend.append('TB')\n",
     "    \n",
     "    ax.set_title(title)\n",
-    "    ax.legend(legend, loc='lower right');"
+    "    ax.legend(real_legend, loc='upper right');\n",
+    "    return losses_dict_sorted"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 25,
+   "execution_count": 170,
    "id": "c8c3f323",
    "metadata": {},
    "outputs": [],
    "source": [
-    "def get_all_predictions(ts_dict, horizon, base_alg_list, omega_mode, best_m, bins=10):\n",
+    "def get_all_predictions(train_dict, test_dict, horizon, base_alg_list, grid_params,\n",
+    "                        omega_mode=\"basic\", best_m=\"optim\", is_exog=False, bins=10):\n",
     "    pred_dict = {}\n",
     "    losses_dict = {}\n",
     "    \n",
-    "    for ts_name, ts in tqdm(ts_dict.items()):\n",
-    "        omega = get_omega(ts, mode=omega_mode, bins=bins)\n",
-    "\n",
+    "    for ts_name in tqdm(train_dict.keys()):\n",
+    "        if is_exog:\n",
+    "            ts_train = train_dict[ts_name][\"ts\"]\n",
+    "            ts_test = test_dict[ts_name][\"ts\"]\n",
+    "            exog_train = (pd.DataFrame(data=[train_dict[ts_name][\"actual_price\"],\n",
+    "                                             train_dict[ts_name][\"promo\"]])\n",
+    "                          .transpose().astype({\"Actual_Price\": float, \"Promo\": int}))\n",
+    "            exog_test = (pd.DataFrame(data=[test_dict[ts_name][\"actual_price\"],\n",
+    "                                            test_dict[ts_name][\"promo\"]])\n",
+    "                         .transpose().astype({\"Actual_Price\": float, \"Promo\": int}))\n",
+    "        else:\n",
+    "            ts_train = train_dict[ts_name]\n",
+    "            ts_test = tesr_dict[ts_name]\n",
+    "            exog_train = None\n",
+    "            exog_test = None\n",
+    "        \n",
+    "        auto_base_alg_list = get_auto_base_alg_list(ts_train, exog_train, grid_params)\n",
+    "        all_base_alg_list = base_alg_list + auto_base_alg_list\n",
+    "        \n",
+    "        if best_m == \"optim\":\n",
+    "            best_m, _, _, _ = get_optim_m(ts_train, all_base_alg_list, exog=exog_train,\n",
+    "                                          bins=bins, omega_mode=omega_mode)\n",
+    "        \n",
+    "        omega = get_omega(ts_test, mode=omega_mode, bins=bins)\n",
+    "        \n",
     "        pred_dict[ts_name] = {}\n",
     "        i = 1\n",
-    "        for base_alg, base_params, fit_params in base_alg_list:\n",
-    "            pred_dict[ts_name][f\"alg{i}\"] = get_density_forecast(ts, horizon, base_alg, base_params, fit_params,\n",
-    "                                                                 bins=bins, omega=omega, fittedvalues=True)\n",
+    "        for base_alg, base_params, fit_params in all_base_alg_list:\n",
+    "            pred_dict[ts_name][f\"alg{i}\"] = get_density_forecast(ts_test, horizon, base_alg, base_params, fit_params,\n",
+    "                                                                 exog=exog_test, bins=bins,\n",
+    "                                                                 omega=omega, fittedvalues=True)\n",
     "            i += 1\n",
     "\n",
-    "        pred_dict[ts_name][\"AA\"] = aggregating_algorithm(ts, horizon, base_alg_list,\n",
+    "        pred_dict[ts_name][\"AA\"] = aggregating_algorithm(ts_test, horizon, all_base_alg_list, exog=exog_test,\n",
     "                                                         bins=bins, omega_mode=omega_mode, m=best_m)\n",
     "\n",
     "        losses_dict[ts_name] = {key : [] for key in pred_dict[ts_name].keys()}\n",
     "\n",
-    "        for i in range(len(ts.values)):\n",
+    "        for i in range(len(ts_test.values)):\n",
     "            for alg in losses_dict[ts_name].keys():\n",
-    "                losses_dict[ts_name][alg].append(brier_loss(ts.values[i], pred_dict[ts_name][alg][i]))\n",
+    "                losses_dict[ts_name][alg].append(brier_loss(ts_test.values[i], pred_dict[ts_name][alg][i]))\n",
     "\n",
     "        for alg in losses_dict[ts_name].keys():\n",
-    "            losses_dict[ts_name][alg] = np.cumsum(losses_dict[ts_name][alg]) / list(range(1, len(ts.values) + 1))\n",
+    "            losses_dict[ts_name][alg] = np.cumsum(losses_dict[ts_name][alg]) / list(range(1, len(ts_test.values) + 1))\n",
     "    \n",
     "    return pred_dict, losses_dict"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 96,
+   "execution_count": 102,
    "id": "27f60e77",
    "metadata": {},
    "outputs": [],
    "source": [
-    "def plot_total_losses(losses_dict, ax, title, legend):\n",
+    "def plot_total_losses(losses_dict, ax, title, legend, number_to_plot=None):\n",
     "    total_losses = {alg: np.zeros_like(losses) for alg, losses in losses_dict[next(iter(losses_dict))].items()}\n",
     "            \n",
     "    for ts_losses in losses_dict.values():\n",
@@ -480,12 +608,30 @@
     "    for alg, losses in total_losses.items():\n",
     "            total_losses[alg] = losses / len(losses_dict)\n",
     "            \n",
-    "    for alg, losses in total_losses.items():\n",
-    "        ax.plot(losses)\n",
-    "        print(f\"{alg}: {np.mean(losses)}\")\n",
+    "    total_losses_sorted = {k: v for k, v in sorted(total_losses.items(), key=lambda item: item[1].mean())}\n",
+    "            \n",
+    "    if not number_to_plot:\n",
+    "        number_to_plot = len(legend) - 2\n",
+    "    \n",
+    "    real_legend = []\n",
+    "    i = 0\n",
+    "    for alg in total_losses_sorted.keys():\n",
+    "        if i < number_to_plot:\n",
+    "            if alg == \"AA\":\n",
+    "                continue\n",
+    "            ax.plot(total_losses_sorted[alg])\n",
+    "            i += 1\n",
+    "            real_legend.append(legend[int(alg[-1]) - 1])\n",
+    "            print(f\"{legend[int(alg[-1]) - 1]} mean loss: {total_losses_sorted[alg].mean()}\")\n",
+    "        else:\n",
+    "            break\n",
+    "    \n",
+    "    ax.plot(total_losses_sorted['AA'])\n",
+    "    print(f\"AA mean loss: {total_losses_sorted['AA'].mean()}\")\n",
+    "    real_legend.append('AA')\n",
     "        \n",
     "    ax.set_title(title)\n",
-    "    ax.legend(legend, loc='lower right');"
+    "    ax.legend(real_legend, loc='lower right');"
    ]
   }
  ],