We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
非常好模型,爱来自只能用cpu运行大模型的网友
如题,与llama.cpp整合并发布gguf量化版本的模型可以极大程度的降低推理所需的硬件资源,让更多人能使用这个模型。 实现难点主要是你们在attention上的创新,可能需要你们和llama.cpp的开发者联系一下…… 顺带一提,既然你们是chat微调后的模型,请顺便也整合一下chat template,llama.cpp刚刚支持的,会方便一些。 十分感谢。
The text was updated successfully, but these errors were encountered:
感谢宝贵的建议,我们会马上开展相关工作。
Sorry, something went wrong.
这个非常期待呀,希望尽快集成发布
我们同事已经在跟进。
通希望推出 gguf版本,对硬件兼容性能考虑老一点的硬件,像llama2都是可以运行在老卡上,这样更能造福群众阿
No branches or pull requests
非常好模型,爱来自只能用cpu运行大模型的网友如题,与llama.cpp整合并发布gguf量化版本的模型可以极大程度的降低推理所需的硬件资源,让更多人能使用这个模型。
实现难点主要是你们在attention上的创新,可能需要你们和llama.cpp的开发者联系一下……
顺带一提,既然你们是chat微调后的模型,请顺便也整合一下chat template,llama.cpp刚刚支持的,会方便一些。
十分感谢。
The text was updated successfully, but these errors were encountered: