fluid-cloudnative
diff --git a/‎examples/03_dataflow_with_vineyard/vineyard.ipynb‎
Lines changed: 108 additions & 122 deletions b/‎examples/03_dataflow_with_vineyard/vineyard.ipynb‎
Lines changed: 108 additions & 122 deletions
@@ -69,7 +69,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -80,27 +80,9 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "DataFrame initialized.\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "<oss2.models.PutObjectResult at 0x7f8e7b9b1de0>"
-      ]
-     },
-     "execution_count": 2,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "import numpy as np\n",
     "import pandas as pd\n",
@@ -164,7 +146,7 @@
     "# 请将您的 OSS accessKeyID 和 accessKeySecret 分别设置成环境变量 OSS_ACCESS_KEY_ID 和 OSS_ACCESS_KEY_SECRET\n",
     "auth = oss2.ProviderAuth(EnvironmentVariableCredentialsProvider())\n",
     "# 请将 OSS_ENDPOINT 和 BUCKET_NAME 替换为您的 OSS Endpoint 和 Bucket\n",
-    "bucket = oss2.Bucket(auth, 'oss-cn-beijing.aliyuncs.com', 'fluid-demo')\n",
+    "bucket = oss2.Bucket(auth, '<OSS_ENDPOINT>', '<OSS_BUCKET_NAME>')\n",
     "\n",
     "bytes_buffer = io.BytesIO()\n",
     "df.to_pickle(bytes_buffer)\n",
@@ -180,9 +162,33 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 1,
    "metadata": {},
    "outputs": [],
+   "source": [
+    "# Setting fluidsdk logger level to DEBUG for detailed messages\n",
+    "import logging\n",
+    "import sys\n",
+    "logger = logging.getLogger(\"fluidsdk\")\n",
+    "stream_handler = logging.StreamHandler(sys.stdout)\n",
+    "stream_handler.setFormatter(logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s'))\n",
+    "logger.addHandler(stream_handler)\n",
+    "logger.setLevel(logging.DEBUG)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "2024-03-08 12:08:26,145 - fluidsdk - DEBUG - Dataset \"default/vineyard\" created\n"
+     ]
+    }
+   ],
    "source": [
     "import fluid\n",
     "\n",
@@ -230,39 +236,37 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [],
    "source": [
     "from kubernetes.client import models as k8s_models\n",
     "# 定义任务运行模版，并挂载OSS Volume\n",
-    "def create_processor(script):\n",
-    "    return models.Processor(\n",
-    "        script=models.ScriptProcessor(\n",
-    "            command=[\"bash\"],\n",
-    "            source=script,\n",
-    "            image=\"python\",\n",
-    "            image_tag=\"3.10\",\n",
-    "            volumes=[k8s_models.V1Volume(\n",
+    "def create_processor(process_func, packages_to_install, pip_index_url):\n",
+    "    extra_volumes = k8s_models.V1Volume(\n",
     "                name=\"data\",\n",
     "                persistent_volume_claim=k8s_models.V1PersistentVolumeClaimVolumeSource(\n",
     "                    claim_name=\"pvc-oss\"\n",
     "                )\n",
-    "            )],\n",
-    "            volume_mounts=[k8s_models.V1VolumeMount(\n",
+    "            )\n",
+    "    extra_volume_mount = k8s_models.V1VolumeMount(\n",
     "                name=\"data\",\n",
     "                mount_path=\"/data\"\n",
-    "            )],\n",
-    "        )   \n",
-    "    )"
+    "            )\n",
+    "    \n",
+    "    from fluid.utils import processor as processor_utils\n",
+    "    debug_mode = True # Setting debug_mode to True for verbose\n",
+    "    processor = processor_utils.make_processor_from_func(process_func, packages_to_install=packages_to_install, pip_index_url=pip_index_url, volumes=[extra_volumes], volume_mounts=[extra_volume_mount], debug_mode=debug_mode)\n",
+    "\n",
+    "    return processor"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
     "在上述代码片段中：\n",
-    "- **创建任务模版:** 代码中封装了一个名为`create_processor`的任务模板函数，该函数接收一个bash脚本并把它传入作为某个容器的启动命令。该容器中定义了Python 3.10的运行环境，并在`/data`目录下挂载了OSS存储数据源。"
+    "- **创建任务模版:** 代码中封装了一个名为`create_processor`的任务模板函数，该函数接收一个Python函数对象，并自动解析Python函数对象中的代码内容，最后将代码传入作为某个容器的启动命令。`create_processor`函数还可以设置运行该函数所需的Python版本（默认为3.10版本，参考`processor_utils.make_processor_from_func`的方法签名）和PyPI依赖。容器还将在`/data`目录下挂载OSS存储数据源。"
    ]
   },
   {
@@ -274,118 +278,90 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 4,
    "metadata": {},
    "outputs": [],
    "source": [
     "# 定义数据预处理脚本\n",
-    "preprocess_data_script = \"\"\"\n",
-    "# pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple\n",
-    "pip3 install numpy pandas pyarrow requests vineyard scikit-learn==1.4.0 joblib==1.3.2\n",
-    "#!/bin/bash\n",
-    "set -ex\n",
-    "\n",
-    "cat <<EOF > ./preprocess.py\n",
-    "from sklearn.model_selection import train_test_split\n",
-    "\n",
-    "import pandas as pd\n",
-    "import vineyard\n",
-    "\n",
-    "df = pd.read_pickle('/data/df.pkl')\n",
+    "def preprocess():\n",
+    "    from sklearn.model_selection import train_test_split\n",
     "\n",
-    "# Preprocess Data\n",
-    "df = df.drop(df[(df['GrLivArea']>4800)].index)\n",
-    "X = df.drop('SalePrice', axis=1)  # Features\n",
-    "y = df['SalePrice']  # Target variable\n",
+    "    import pandas as pd\n",
+    "    import vineyard\n",
+    "    \n",
+    "    df = pd.read_pickle('/data/df.pkl')\n",
+    "    \n",
+    "    # Preprocess Data\n",
+    "    df = df.drop(df[(df['GrLivArea']>4800)].index)\n",
+    "    X = df.drop('SalePrice', axis=1)  # Features\n",
+    "    y = df['SalePrice']  # Target variable\n",
+    "    \n",
+    "    del df\n",
+    "    \n",
+    "    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)\n",
+    "    \n",
+    "    del X, y\n",
+    "    \n",
+    "    vineyard.put(X_train, name=\"x_train\", persist=True)\n",
+    "    vineyard.put(X_test, name=\"x_test\", persist=True)\n",
+    "    vineyard.put(y_train, name=\"y_train\", persist=True)\n",
+    "    vineyard.put(y_test, name=\"y_test\", persist=True)\n",
     "\n",
-    "del df\n",
     "\n",
-    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)\n",
+    "def train():\n",
+    "    from sklearn.linear_model import LinearRegression\n",
     "\n",
-    "del X, y\n",
+    "    import joblib\n",
+    "    import pandas as pd\n",
+    "    import vineyard\n",
     "\n",
-    "vineyard.put(X_train, name=\"x_train\", persist=True)\n",
-    "vineyard.put(X_test, name=\"x_test\", persist=True)\n",
-    "vineyard.put(y_train, name=\"y_train\", persist=True)\n",
-    "vineyard.put(y_test, name=\"y_test\", persist=True)\n",
+    "    x_train_data = vineyard.get(name=\"x_train\", fetch=True)\n",
+    "    y_train_data = vineyard.get(name=\"y_train\", fetch=True)\n",
     "\n",
-    "EOF\n",
+    "    model = LinearRegression()\n",
+    "    model.fit(x_train_data, y_train_data)\n",
     "\n",
-    "python3 ./preprocess.py\n",
-    "\"\"\"\n",
+    "    joblib.dump(model, '/data/model.pkl')\n",
     "\n",
-    "# 定义模型训练脚本\n",
-    "train_data_script = \"\"\"\n",
-    "# pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple\n",
-    "pip3 install numpy pandas pyarrow requests vineyard scikit-learn==1.4.0 joblib==1.3.2\n",
-    "#!/bin/bash\n",
-    "set -ex\n",
     "\n",
-    "cat <<EOF > ./train.py\n",
-    "from sklearn.linear_model import LinearRegression\n",
+    "def test():\n",
+    "    from sklearn.linear_model import LinearRegression\n",
+    "    from sklearn.metrics import mean_squared_error\n",
     "\n",
-    "import joblib\n",
-    "import pandas as pd\n",
-    "import vineyard\n",
-    "\n",
-    "x_train_data = vineyard.get(name=\"x_train\", fetch=True)\n",
-    "y_train_data = vineyard.get(name=\"y_train\", fetch=True)\n",
-    "\n",
-    "model = LinearRegression()\n",
-    "model.fit(x_train_data, y_train_data)\n",
-    "\n",
-    "joblib.dump(model, '/data/model.pkl')\n",
+    "    import vineyard\n",
+    "    import joblib\n",
+    "    import pandas as pd\n",
     "\n",
-    "EOF\n",
-    "python3 ./train.py\n",
-    "\"\"\"\n",
-    "\n",
-    "# 定义模型测试脚本\n",
-    "test_data_script = \"\"\"\n",
-    "# pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple\n",
-    "pip3 install numpy pandas pyarrow requests vineyard scikit-learn==1.4.0 joblib==1.3.2\n",
-    "#!/bin/bash\n",
-    "set -ex\n",
-    "\n",
-    "cat <<EOF > ./test.py\n",
-    "from sklearn.linear_model import LinearRegression\n",
-    "from sklearn.metrics import mean_squared_error\n",
-    "\n",
-    "import vineyard\n",
-    "import joblib\n",
-    "import pandas as pd\n",
+    "    x_test_data = vineyard.get(name=\"x_test\", fetch=True)\n",
+    "    y_test_data = vineyard.get(name=\"y_test\", fetch=True)\n",
     "\n",
-    "x_test_data = vineyard.get(name=\"x_test\", fetch=True)\n",
-    "y_test_data = vineyard.get(name=\"y_test\", fetch=True)\n",
+    "    model = joblib.load(\"/data/model.pkl\")\n",
+    "    y_pred = model.predict(x_test_data)\n",
     "\n",
-    "model = joblib.load(\"/data/model.pkl\")\n",
-    "y_pred = model.predict(x_test_data)\n",
+    "    err = mean_squared_error(y_test_data, y_pred)\n",
     "\n",
-    "err = mean_squared_error(y_test_data, y_pred)\n",
+    "    with open('/data/output.txt', 'a') as f:\n",
+    "        f.write(str(err))\n",
     "\n",
-    "with open('/data/output.txt', 'a') as f:\n",
-    "    f.write(str(err))\n",
     "\n",
-    "EOF\n",
+    "packages_to_install = [\"numpy\", \"pandas\", \"pyarrow\", \"requests\", \"vineyard\", \"scikit-learn==1.4.0\", \"joblib==1.3.2\"]\n",
+    "pip_index_url = \"https://pypi.tuna.tsinghua.edu.cn/simple\"\n",
     "\n",
-    "python3 ./test.py\n",
-    "\"\"\"\n",
-    "\n",
-    "preprocess_processor = create_processor(preprocess_data_script)\n",
-    "train_processor = create_processor(train_data_script)\n",
-    "test_processor = create_processor(test_data_script)"
+    "preprocess_processor = create_processor(preprocess, packages_to_install, pip_index_url)\n",
+    "train_processor = create_processor(train, packages_to_install, pip_index_url)\n",
+    "test_processor = create_processor(test, packages_to_install, pip_index_url)"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "上述代码片段分别定义了数据处理流水线中的三个步骤：数据预处理、模型训练和模型测试。这三个步骤对应的Bash脚本传入`create_processor`函数以被封装为三个processor。"
+    "上述代码片段分别定义了数据处理流水线中的三个步骤：数据预处理、模型训练和模型测试。这三个步骤对应的Python函数传入`create_processor`函数以被封装为三个processor。"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 5,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -398,9 +374,19 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 6,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "2024-03-08 12:13:09,983 - fluidsdk - INFO - DataProcess linear-regression-with-vineyard-step1 completed\n",
+      "2024-03-08 12:15:26,417 - fluidsdk - INFO - DataProcess linear-regression-with-vineyard-step2 completed\n",
+      "2024-03-08 12:17:39,682 - fluidsdk - INFO - DataProcess linear-regression-with-vineyard-step3 completed\n"
+     ]
+    }
+   ],
    "source": [
     "# 将线性回归模型的数据处理任务工作流提交，并等待其运行完成\n",
     "run = flow.run(run_id=\"linear-regression-with-vineyard\")\n",
@@ -416,7 +402,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 7,
    "metadata": {},
    "outputs": [],
    "source": [