LMDeploy 大模型量化部署实践

使用 LMDeploy 以本地对话部署 InternLM-Chat-7B 模型，生成 300 字的小故事

API服务部署 InternLM-Chat-7B 模型，生成 300 字的小故事

网页Gradio部署 InternLM-Chat-7B 模型，生成 300 字的小故事

尝试量化模型：KV Cache量化

尝试量化模型：W4A16量化

进阶作业：

对internlm-chat-7b模型进行量化，并同时使用KV Cache量化

kv量化参数如图：

在自己的任务数据集上任取若干条进行Benchmark测试

TurboMind推理+Python代码集成，下图是原始显存占用
在（1）的基础上采用W4A16量化，下图是量化显存占用