优化docker 减小镜像大小

shell-nlp · shell-nlp · commit 59e5e42e0c00 · 2025-05-14T22:30:49.000+08:00
diff --git a/Dockerfile b/Dockerfile
@@ -1,10 +1,12 @@
-# FROM docker.rainbond.cc/506610466/cuda:12.2.0-runtime-ubuntu20.04-uv
-# FROM 506610466/cuda:12.2.0-runtime-ubuntu20.04-uv
+# FROM docker.1ms.run/506610466/cuda:12.2.0-runtime-ubuntu20.04-uv
+FROM 506610466/cuda:12.2.0-runtime-ubuntu20.04-uv
 # 从基础镜像开始构建，加快构建速度
-FROM 506610466/gpt_server:base 
+# FROM 506610466/gpt_server:base
+RUN apt update -y && apt install -y build-essential && rm -rf /var/lib/apt/lists/*
 COPY ./ /gpt_server
 WORKDIR /gpt_server
 RUN uv sync && uv cache clean
+ENV PATH=/gpt_server/.venv/bin:$PATH
 # RUN uv venv --seed && uv sync && uv cache clean && \
 #     echo '[[ -f .venv/bin/activate ]] && source .venv/bin/activate' >> ~/.bashrc
 
diff --git a/gpt_server/model_worker/base/model_worker_base.py b/gpt_server/model_worker/base/model_worker_base.py
@@ -224,6 +224,8 @@ def run(cls):
         parser.add_argument("--kv_cache_quant_policy", type=str, default="0")
         # vad_model
         parser.add_argument("--vad_model", type=str, default="")
+        # punc_model
+        parser.add_argument("--punc_model", type=str, default="")
         # log_level
         parser.add_argument("--log_level", type=str, default="WARNING")
         args = parser.parse_args()
@@ -245,6 +247,8 @@ def run(cls):
             os.environ["max_model_len"] = args.max_model_len
         if args.vad_model:
             os.environ["vad_model"] = args.vad_model
+        if args.punc_model:
+            os.environ["punc_model"] = args.punc_model
 
         os.environ["enable_prefix_caching"] = args.enable_prefix_caching
         os.environ["gpu_memory_utilization"] = args.gpu_memory_utilization
diff --git a/gpt_server/model_worker/funasr.py b/gpt_server/model_worker/funasr.py
@@ -35,9 +35,11 @@ def __init__(
             device = "cuda"
         logger.warning(f"使用{device}加载...")
         vad_model = os.environ.get("vad_model", None)
+        punc_model = os.environ.get("punc_model", None)
         self.model = AutoModel(
             model=model_path,
             vad_model=vad_model,
+            punc_model=punc_model,
             vad_kwargs={"max_single_segment_time": 30000},
             device="cuda",
         )
diff --git a/gpt_server/utils.py b/gpt_server/utils.py
@@ -163,6 +163,7 @@ def start_model_worker(config: dict):
                         "kv_cache_quant_policy", 0
                     )
                     vad_model = engine_config.get("vad_model", "")
+                    punc_model = engine_config.get("punc_model", "")
 
                 else:
                     logger.error(
@@ -248,6 +249,8 @@ def start_model_worker(config: dict):
                         cmd += f" --max_model_len '{max_model_len}'"
                     if vad_model:
                         cmd += f" --vad_model '{vad_model}'"
+                    if punc_model:
+                        cmd += f" --vad_model '{punc_model}'"
                     p = Process(target=run_cmd, args=(cmd,))
                     p.start()
                     process.append(p)
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "gpt_server"
-version = "0.4.4"
+version = "0.4.5"
 description = "gpt_server是一个用于生产级部署LLMs或Embedding的开源框架。"
 readme = "README.md"
 license = { text = "Apache 2.0" }
diff --git a/uv.lock b/uv.lock