-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
new features: 使用对大型模型剪枝后得到的小模型 #1
Comments
我感觉侧重点还是不太一样,P-truning和lora可以继续训练模型;感觉剪枝和量化这些技术更倾向于低资源部署。
…------------------ 原始邮件 ------------------
发件人: ***@***.***>;
发送时间: 2023年4月13日(星期四) 下午4:11
收件人: ***@***.***>;
抄送: ***@***.***>;
主题: [vxfla/kanchil] new features: 使用对大型模型剪枝后得到的小模型 (Issue #1)
可以一些对大模型高效的剪枝方法,如SparseGPT:https://arxiv.org/abs/2301.00774
除了训练一个全连接的小模型,对大模型进行剪枝后得到的稀疏神经网络说不定也是个可行的思路
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>
|
那除了使用P-turning和lora接下来有别的打算没,我也对做一个精致的小模型感兴趣,但我之前尝试了p, Prefix, Prompt-turning, lora, ... 这些, 效果不行,各种finetuning方法只像是在小模型上修修补补一样。 |
我试着在MT5上做全量fine-tune,Instruct-tuning是可以激发一些模型对齐人类偏好的能力的,不过也很难面面俱到,而且MT5基本能力也不是很强。用精致的数据,做一个特定小领域的应该是有可能的。
将仙
***@***.***
…------------------ 原始邮件 ------------------
发件人: ***@***.***>;
发送时间: 2023年4月13日(星期四) 下午4:40
收件人: ***@***.***>;
抄送: ***@***.***>; ***@***.***>;
主题: Re: [vxfla/kanchil] new features: 使用对大型模型剪枝后得到的小模型 (Issue #1)
那除了使用P-turning和lora接下来有别的打算没,我也对做一个精致的小模型感兴趣,但我之前尝试了p, Prefix, Prompt-turning, lora, ... 这些, 效果不行,各种finetuning方法只像是在小模型上修修补补一样。
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
可以一些对大模型高效的剪枝方法,如SparseGPT:https://arxiv.org/abs/2301.00774
除了训练一个全连接的小模型,对大模型进行剪枝后得到的稀疏神经网络说不定也是个可行的思路
The text was updated successfully, but these errors were encountered: