bytebot-ai · dyancy4591-ai · Nov 20, 2025
diff --git a/docker/run-vllm-qwen.sh b/docker/run-vllm-qwen.sh
@@ -0,0 +1,13 @@
+#!/bin/sh
+export HUGGING_FACE_HUB_TOKEN=hf_XXX-XXX-XXX
+export CUDA_VISIBLE_DEVICES="0,1,2,3"
+docker run \
+       --name vllm-qwen-vl \
+       --network vllm-qwen-vl \
+       --gpus all \
+       --runtime=nvidia \
+       --ipc=host \
+       --rm --init \
+       -p 8000:8000 \
+       -v /opt/vllm:/root/.cache/huggingface \
+       vllm/vllm-openai:latest --model Qwen/Qwen2.5-VL-32B-Instruct --served-model-name "Qwen2.5-VL-32B-Instruct" --tensor-parallel-size 4 --max_model_len 32768 --enable-auto-tool-choice --tool-call-parser qwen
diff --git a/packages/bytebot-llm-proxy/litellm-config.yaml b/packages/bytebot-llm-proxy/litellm-config.yaml
@@ -28,3 +28,12 @@ model_list:
     litellm_params:
       model: gemini/gemini-2.5-flash
       api_key: os.environ/GEMINI_API_KEY
+
+  # Self-hosted vLLM Models
+  - model_name: VM426:Qwen2.5-VL-32B-Instruct
+    litellm_params:
+      model: openai/Qwen2.5-VL-32B-Instruct
+      api_base: https://XXX-XXX-XXX-XXX/v1
+      supports_function_calling: true
+      drop_params: true
+      temperature: 0.1