Name	Name	Last commit message	Last commit date
Latest commit History 1,049 Commits
.buildkite	.buildkite
.github	.github
benchmarks	benchmarks
cmake	cmake
csrc	csrc
docs	docs
examples-neuralmagic	examples-neuralmagic
examples	examples
licenses	licenses
neuralmagic	neuralmagic
rocm_patch	rocm_patch
tests	tests
vllm	vllm
.clang-format	.clang-format
.dockerignore	.dockerignore
.gitignore	.gitignore
.readthedocs.yaml	.readthedocs.yaml
.yapfignore	.yapfignore
CMakeLists.txt	CMakeLists.txt
CONTRIBUTING.md	CONTRIBUTING.md
Dockerfile	Dockerfile
Dockerfile.cpu	Dockerfile.cpu
Dockerfile.neuron	Dockerfile.neuron
Dockerfile.openvino	Dockerfile.openvino
Dockerfile.ppc64le	Dockerfile.ppc64le
Dockerfile.rocm	Dockerfile.rocm
Dockerfile.tpu	Dockerfile.tpu
Dockerfile.xpu	Dockerfile.xpu
LICENSE	LICENSE
MANIFEST.in	MANIFEST.in
NOTICE	NOTICE
README.md	README.md
collect_env.py	collect_env.py
format.sh	format.sh
pyproject.toml	pyproject.toml
requirements-build.txt	requirements-build.txt
requirements-common.txt	requirements-common.txt
requirements-cpu.txt	requirements-cpu.txt
requirements-cuda.txt	requirements-cuda.txt
requirements-dev.txt	requirements-dev.txt
requirements-lint.txt	requirements-lint.txt
requirements-neuron.txt	requirements-neuron.txt
requirements-openvino.txt	requirements-openvino.txt
requirements-rocm.txt	requirements-rocm.txt
requirements-test.txt	requirements-test.txt
requirements-tpu.txt	requirements-tpu.txt
requirements-xpu.txt	requirements-xpu.txt
setup.py	setup.py

Name

Last commit message

Last commit date

1,049 Commits

requirements-build.txt

requirements-common.txt

requirements-cpu.txt

requirements-cuda.txt

requirements-dev.txt

requirements-lint.txt

requirements-neuron.txt

requirements-openvino.txt

requirements-rocm.txt

requirements-test.txt

requirements-tpu.txt

requirements-xpu.txt

setup.py

nm-vllm

Overview

nm-vllm is our supported enterprise distribution of vLLM.

Installation

PyPI

The nm-vllm PyPi package includes pre-compiled binaries for CUDA (version 12.1) kernels. For other PyTorch or CUDA versions, please compile the package from source.

Install it using pip:

pip install nm-vllm --extra-index-url https://pypi.neuralmagic.com/simple

To utilize the weight sparsity features, include the optional sparse dependencies.

pip install nm-vllm[sparse] --extra-index-url https://pypi.neuralmagic.com/simple

You can also build and install nm-vllm from source (this will take ~10 minutes):

git clone https://github.com/neuralmagic/nm-vllm.git
cd nm-vllm
pip install -e .[sparse] --extra-index-url https://pypi.neuralmagic.com/simple

Docker

The nm-vllm container registry includes premade docker images.

Launch the OpenAI-compatible server with:

MODEL_ID=Qwen/Qwen2-0.5B-Instruct
docker run --gpus all --shm-size 2g ghcr.io/neuralmagic/nm-vllm-openai:latest --model $MODEL_ID

Models

Neural Magic maintains a variety of optimized models on our Hugging Face organization profiles:

Languages

Python 70.0%

Jupyter Notebook 15.2%

Cuda 10.9%

C++ 2.7%

Shell 0.6%

CMake 0.4%

Other 0.2%

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

nm-vllm

Overview

Installation

PyPI

Docker

Models

About

Uh oh!

Releases 5

Packages

Uh oh!

Languages

License

neuralmagic/nm-vllm

Folders and files

Latest commit

History

Repository files navigation

nm-vllm

Overview

Installation

PyPI

Docker

Models

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases 5

Packages 0

Uh oh!

Languages

Packages