GitHub · Where software is built

[RFC]: Deprecating vLLM V0
#18571 · WoosukKwon opened on May 22, 2025
38
[Roadmap] vLLM Roadmap Q2 2025
#15735 · simon-mo opened on Mar 29, 2025
18
[Roadmap] vLLM Release/CI/Performance Benchmark Q2 2025
#16284 · khluu opened on Apr 8, 2025
3

Labels Milestones New issue

[Do not merge] Add out of place layernorm

vllm-project/vllm

#20197

· charlifu opened

on Jun 27, 2025

[Performance]: supports of fused moe kernel implementation

#20176

· oldcpple opened

on Jun 27, 2025

[Performance]: Inefficient prefill attention compared to HuggingFace

#20174

· null-pointer-access opened

on Jun 27, 2025

[Feature] Enable triton scaled mm for NVIDIA GPUs with ahead-of-time autotuning

vllm-project/vllm

#20163

· gau-nernst opened

on Jun 27, 2025

[Performance]: Query: Memory (VRAM vs. RAM) and Performance Implications of Scaling LoRA Adapters in vLLM

#20160

· fighterzzzh opened

on Jun 27, 2025

[Misc]: Disaggregated prefill & Dynamic batching

#20159

· Pr0Wh1teGivee opened

on Jun 27, 2025

[Performance]: 咨询部署方案：DeepSeek-R1-671B 在 12x8卡H20集群上 - 分布式推理 vs 多实例负载均衡的推理方案对比

#20110

· PeifengRen opened

on Jun 26, 2025

[Do Not Merge Now] Integrate new deepgemm

vllm-project/vllm

#20087

· yewentao256 opened

on Jun 25, 2025

[Bench] make OpenAI based bench functions more robust to different OpenAI impls

vllm-project/vllm

#20070

· ilyal-cerebras opened

on Jun 25, 2025

[Performance]: Performance Bottleneck in Mooncake PD Disaggregation: tensorhash() and safetensor_save() Overhead

#20009

· SongzzZ opened

on Jun 24, 2025

[Performance]: For LoRA models, performance drops in versions other than 0.8.2.

#20001

· zhangyuqi-1 opened

on Jun 24, 2025

[PERF] Use faster way of decode in tokenizer: avoid useless list-to-list conversion

vllm-project/vllm

#20000

· vadiklyutiy opened

on Jun 24, 2025