Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

与llama.cpp整合,推出GGUF版本的模型 #25

Open
SilverLatios opened this issue Nov 29, 2023 · 4 comments
Open

与llama.cpp整合,推出GGUF版本的模型 #25

SilverLatios opened this issue Nov 29, 2023 · 4 comments

Comments

@SilverLatios
Copy link

非常好模型,爱来自只能用cpu运行大模型的网友

如题,与llama.cpp整合并发布gguf量化版本的模型可以极大程度的降低推理所需的硬件资源,让更多人能使用这个模型。
实现难点主要是你们在attention上的创新,可能需要你们和llama.cpp的开发者联系一下……
顺带一提,既然你们是chat微调后的模型,请顺便也整合一下chat template,llama.cpp刚刚支持的,会方便一些。
十分感谢。

@Shawn-IEITSystems
Copy link
Collaborator

感谢宝贵的建议,我们会马上开展相关工作。

@lijq17794802
Copy link

lijq17794802 commented Nov 30, 2023

这个非常期待呀,希望尽快集成发布

@Shawn-IEITSystems
Copy link
Collaborator

我们同事已经在跟进。

@maxiaoyuzdz
Copy link

通希望推出 gguf版本,对硬件兼容性能考虑老一点的硬件,像llama2都是可以运行在老卡上,这样更能造福群众阿

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants