Multiple model aliases (vLLM like) #13379

ELigoP · 2025-05-08T08:46:10Z

ELigoP
May 8, 2025

This is very useful if you want to serve to models with different params (prompt, or temperate etc.) in some frontend, e.g. OpenWebUI. I use Qwen3 models, and I want to serve same model with /no_think prompt and without this (thinking on). And even recommended temperature and top-p is different for thinking and non-thinking mode.

Currently if you enter multiple --alias X --alias Y values, last Y value is used.
vLLM allows --served-model-name X Y, then both X and Y are returned from /v1/models request, both can be called.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Multiple model aliases (vLLM like) #13379

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Multiple model aliases (vLLM like) #13379

Uh oh!

ELigoP May 8, 2025

Replies: 0 comments

ELigoP
May 8, 2025