Skip to content

Latest commit

 

History

History
26 lines (25 loc) · 2.37 KB

第五节作业.md

File metadata and controls

26 lines (25 loc) · 2.37 KB

LMDeploy 大模型量化部署实践

使用 LMDeploy 以本地对话部署 InternLM-Chat-7B 模型,生成 300 字的小故事

b7998c563e1edfe1f769a7addba1f7f

API服务部署 InternLM-Chat-7B 模型,生成 300 字的小故事

127723a2d18797a7b996ce91da4d022 8269f9af6401e546b1adfeeb2e5a7cc

网页Gradio部署 InternLM-Chat-7B 模型,生成 300 字的小故事

21aa5dd49c1cf7ee805e25d703cc33c

尝试量化模型:KV Cache量化

5657874a061376e3c7d527a72846dcd 3d733cc159f93386e91553c79e67b16

尝试量化模型:W4A16量化

8db9f5eb568e6ebafb9211053ad6520 556d242d1c25f474b8f34e36e9d7bbf 48e6bc7c146c6d4eaf1b7f8392098a8 51fcbf4698c3fba956a635a32525c74

进阶作业:

对internlm-chat-7b模型进行量化,并同时使用KV Cache量化

  • kv量化参数如图: image

在自己的任务数据集上任取若干条进行Benchmark测试

  • TurboMind推理+Python代码集成,下图是原始显存占用 d8964e91356de07322b49b97aeac0c2
  • 在(1)的基础上采用W4A16量化,下图是量化显存占用 image