langchain-ai
diff --git a/‎docs/source/notebooks/retrieval/semi_structured_benchmarking/ss_eval_baseline.ipynb‎
Lines changed: 222 additions & 97 deletions b/‎docs/source/notebooks/retrieval/semi_structured_benchmarking/ss_eval_baseline.ipynb‎
Lines changed: 222 additions & 97 deletions
@@ -65,20 +65,20 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 2,
    "id": "7eb9e333-77e6-48f9-b221-9bded023b978",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "There are 3 text elements\n",
+      "There are 5 text elements\n",
       "There are 14 text elements\n",
-      "There are 4 text elements\n",
-      "There are 18 text elements\n",
-      "There are 11 text elements\n",
-      "There are 11 text elements\n"
+      "There are 5 text elements\n",
+      "There are 23 text elements\n",
+      "There are 13 text elements\n",
+      "There are 13 text elements\n"
      ]
     }
    ],
@@ -107,7 +107,7 @@
     "\n",
     "\n",
     "texts = []\n",
-    "token_count = 1500\n",
+    "token_count = 1000\n",
     "for fi in files:\n",
     "    texts.extend(load_and_split(dir + fi,token_count))"
    ]
@@ -122,7 +122,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 3,
    "id": "50d01cd3-3c14-4777-90fa-166681d32331",
    "metadata": {},
    "outputs": [],
@@ -131,7 +131,7 @@
     "from langchain.vectorstores import Chroma\n",
     "\n",
     "vectorstore_baseline = Chroma.from_texts(\n",
-    "    texts=texts, collection_name=\"baseline-1500-token\", embedding=OpenAIEmbeddings()\n",
+    "    texts=texts, collection_name=\"baseline-1000-token\", embedding=OpenAIEmbeddings()\n",
     ")\n",
     "\n",
     "retriever_baseline = vectorstore_baseline.as_retriever()"
@@ -147,7 +147,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 4,
    "id": "665986d2-8e7a-4b68-8bc0-7a65a3ed0c14",
    "metadata": {},
    "outputs": [],
@@ -200,124 +200,249 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 15,
-   "id": "eccf4b1d-2551-4938-9c40-6b6b7c7eb722",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "### TODO: Replace with public dataset\n",
-    "\n",
-    "import uuid\n",
-    "\n",
-    "import pandas as pd\n",
-    "from langsmith import Client\n",
-    "\n",
-    "# Read\n",
-    "df = pd.read_csv(dir + \"semi_structured_reports.csv\")\n",
-    "\n",
-    "# Dataset\n",
-    "client = Client()\n",
-    "dataset_name = \"Semi-Structured-Eval-v6\"\n",
-    "dataset = client.create_dataset(dataset_name=dataset_name)\n",
-    "\n",
-    "# Populate dataset\n",
-    "for _, row in df.iterrows():\n",
-    "    # Get Q, A\n",
-    "    q = row[\"Question\"]\n",
-    "    a = row[\"Answer\"]\n",
-    "\n",
-    "    # Use the values in your function\n",
-    "    client.create_example(\n",
-    "        inputs={\"question\": q}, outputs={\"answer\": a}, dataset_id=dataset.id\n",
-    "    )"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 14,
+   "execution_count": 5,
    "id": "edd2e7f9-b3f6-4885-bf05-96f1c1758b20",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "View the evaluation results for project 'baseline-1500-tok_438c7954-9395-47e2-8563-19ffc76c8df7' at:\n",
-      "https://smith.langchain.com/o/1fa8b1f4-fcb9-4072-9aa9-983e35ad61b8/projects/p/b46c6385-45df-4c7d-bfae-51220c85ce60?eval=true\n",
+      "View the evaluation results for project '6d3c-baseline-1000-tok' at:\n",
+      "https://smith.langchain.com/o/1fa8b1f4-fcb9-4072-9aa9-983e35ad61b8/datasets/8cff6883-909b-4014-86e2-7a5445ebdff5/compare?selectedSessions=6a5183de-6ae9-4cca-b2ee-8c9520416820\n",
       "\n",
-      "View all tests for Dataset Semi-Structured-Eval-v5 at:\n",
-      "https://smith.langchain.com/o/1fa8b1f4-fcb9-4072-9aa9-983e35ad61b8/datasets/2759f13d-c0c0-4d60-a8cf-0ce204750642\n",
-      "[------------------------------------------------->] 25/25\n",
-      " Eval quantiles:\n",
-      "                                          inputs.question  \\\n",
-      "count                                                  25   \n",
-      "unique                                                 25   \n",
-      "top     What is Datadog's Non-GAAP gross margin for th...   \n",
-      "freq                                                    1   \n",
-      "mean                                                  NaN   \n",
-      "std                                                   NaN   \n",
-      "min                                                   NaN   \n",
-      "25%                                                   NaN   \n",
-      "50%                                                   NaN   \n",
-      "75%                                                   NaN   \n",
-      "max                                                   NaN   \n",
-      "\n",
-      "        feedback.COT Contextual Accuracy error  execution_time  \n",
-      "count                           25.00000     0       25.000000  \n",
-      "unique                               NaN     0             NaN  \n",
-      "top                                  NaN   NaN             NaN  \n",
-      "freq                                 NaN   NaN             NaN  \n",
-      "mean                             0.76000   NaN        5.927943  \n",
-      "std                              0.43589   NaN        1.992108  \n",
-      "min                              0.00000   NaN        3.842005  \n",
-      "25%                              1.00000   NaN        4.801416  \n",
-      "50%                              1.00000   NaN        5.026568  \n",
-      "75%                              1.00000   NaN        6.440968  \n",
-      "max                              1.00000   NaN       11.176281  \n"
+      "View all tests for Dataset Semi-Structured-Eval-v8 at:\n",
+      "https://smith.langchain.com/o/1fa8b1f4-fcb9-4072-9aa9-983e35ad61b8/datasets/8cff6883-909b-4014-86e2-7a5445ebdff5\n",
+      "[------------------------------------------------->] 25/25"
      ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<h3>Experiment Results:</h3>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>output</th>\n",
+       "      <th>feedback.COT Contextual Accuracy</th>\n",
+       "      <th>error</th>\n",
+       "      <th>execution_time</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>count</th>\n",
+       "      <td>25</td>\n",
+       "      <td>25.00000</td>\n",
+       "      <td>0</td>\n",
+       "      <td>25.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>unique</th>\n",
+       "      <td>25</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>top</th>\n",
+       "      <td>Datadog's Non-GAAP gross margin for the Nine M...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>freq</th>\n",
+       "      <td>1</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>mean</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0.76000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>9.010377</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>std</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0.43589</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>3.432551</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>min</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0.00000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>5.954703</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>25%</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>1.00000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>6.806990</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>50%</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>1.00000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>8.011278</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>75%</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>1.00000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>9.132252</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>max</th>\n",
+       "      <td>NaN</td>\n",
+       "      <td>1.00000</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>18.915070</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                   output  \\\n",
+       "count                                                  25   \n",
+       "unique                                                 25   \n",
+       "top     Datadog's Non-GAAP gross margin for the Nine M...   \n",
+       "freq                                                    1   \n",
+       "mean                                                  NaN   \n",
+       "std                                                   NaN   \n",
+       "min                                                   NaN   \n",
+       "25%                                                   NaN   \n",
+       "50%                                                   NaN   \n",
+       "75%                                                   NaN   \n",
+       "max                                                   NaN   \n",
+       "\n",
+       "        feedback.COT Contextual Accuracy error  execution_time  \n",
+       "count                           25.00000     0       25.000000  \n",
+       "unique                               NaN     0             NaN  \n",
+       "top                                  NaN   NaN             NaN  \n",
+       "freq                                 NaN   NaN             NaN  \n",
+       "mean                             0.76000   NaN        9.010377  \n",
+       "std                              0.43589   NaN        3.432551  \n",
+       "min                              0.00000   NaN        5.954703  \n",
+       "25%                              1.00000   NaN        6.806990  \n",
+       "50%                              1.00000   NaN        8.011278  \n",
+       "75%                              1.00000   NaN        9.132252  \n",
+       "max                              1.00000   NaN       18.915070  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
     }
    ],
    "source": [
     "import uuid\n",
     "from langsmith.client import Client\n",
     "from langchain.smith import RunEvalConfig\n",
     "\n",
+    "# Config\n",
+    "client = Client()\n",
     "eval_config = RunEvalConfig(\n",
     "    evaluators=[\"cot_qa\"],\n",
     ")\n",
     "\n",
-    "def run_eval(chain, eval_run_name):\n",
-    "    \"\"\"\n",
-    "    Run eval\n",
-    "    \"\"\"\n",
-    "    client = Client()\n",
-    "    test_run = client.run_on_dataset(\n",
-    "        ### TODO: Replace with public dataset\n",
-    "        dataset_name=\"Semi-Structured-Eval-v5\",\n",
-    "        llm_or_chain_factory=lambda: (lambda x: x[\"question\"]) | chain,\n",
-    "        evaluation=eval_config,\n",
-    "        verbose=True,\n",
-    "        project_name=eval_run_name,\n",
-    "    )\n",
-    "\n",
-    "\n",
     "# Experiments\n",
     "chain_map = {\n",
-    "    \"baseline-1500-tok\": chain,\n",
+    "    \"baseline-1000-tok\": chain,\n",
+    "    # \"baseline-2000-tok\": chain,\n",
     "}\n",
     "\n",
-    "run_id = str(uuid.uuid4())\n",
+    "\n",
+    "# Run evaluation\n",
+    "run_id = uuid.uuid4().hex[:4]\n",
+    "test_runs = {}\n",
     "for project_name, chain in chain_map.items():\n",
-    "    run_eval(chain, project_name + \"_\" + run_id)"
+    "    test_runs[project_name] = client.run_on_dataset(\n",
+    "        # dataset_name=task.name,\n",
+    "        dataset_name=\"Semi-Structured-Eval-v8\",\n",
+    "        llm_or_chain_factory=lambda: (lambda x: x[\"question\"]) | chain,\n",
+    "        evaluation=eval_config,\n",
+    "        verbose=True,\n",
+    "        project_name=f\"{run_id}-{project_name}\",\n",
+    "        project_metadata={\"chain\": project_name},\n",
+    "    )"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0025211a-f7a1-40e4-9ec5-1b710be3a96a",
+   "metadata": {},
+   "source": [
+    "## TEMP: ITERATURE ON THE DATASET"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
-   "id": "5a49ffc5-e51b-4b87-adfd-1798aa91e1f7",
+   "execution_count": 6,
+   "id": "b54acf22-0cdc-4a58-9d9e-23e63865c32a",
    "metadata": {},
    "outputs": [],
-   "source": []
+   "source": [
+    "### TODO: Replace with public dataset\n",
+    "\n",
+    "import uuid\n",
+    "\n",
+    "import pandas as pd\n",
+    "from langsmith import Client\n",
+    "\n",
+    "# Read\n",
+    "df = pd.read_csv(dir + \"semi_structured_reports.csv\")\n",
+    "\n",
+    "# Dataset\n",
+    "client = Client()\n",
+    "dataset_name = \"Semi-Structured-Eval-v9\"\n",
+    "dataset = client.create_dataset(dataset_name=dataset_name)\n",
+    "\n",
+    "# Populate dataset\n",
+    "for _, row in df.iterrows():\n",
+    "    # Get Q, A\n",
+    "    q = row[\"Question\"]\n",
+    "    a = row[\"Answer\"]\n",
+    "\n",
+    "    # Use the values in your function\n",
+    "    client.create_example(\n",
+    "        inputs={\"question\": q}, outputs={\"answer\": a}, dataset_id=dataset.id\n",
+    "    )"
+   ]
   }
  ],
  "metadata": {