new features: 使用对大型模型剪枝后得到的小模型 #1

thaumstrial · 2023-04-13T08:11:23Z

可以一些对大模型高效的剪枝方法，如SparseGPT：https://arxiv.org/abs/2301.00774
除了训练一个全连接的小模型，对大模型进行剪枝后得到的稀疏神经网络说不定也是个可行的思路

vxfla · 2023-04-13T08:31:18Z

我感觉侧重点还是不太一样，P-truning和lora可以继续训练模型；感觉剪枝和量化这些技术更倾向于低资源部署。

------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年4月13日(星期四) 下午4:11 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [vxfla/kanchil] new features: 使用对大型模型剪枝后得到的小模型 (Issue #1) 可以一些对大模型高效的剪枝方法，如SparseGPT：https://arxiv.org/abs/2301.00774 除了训练一个全连接的小模型，对大模型进行剪枝后得到的稀疏神经网络说不定也是个可行的思路 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

thaumstrial · 2023-04-13T08:39:59Z

那除了使用P-turning和lora接下来有别的打算没，我也对做一个精致的小模型感兴趣，但我之前尝试了p, Prefix, Prompt-turning, lora, ... 这些，效果不行，各种finetuning方法只像是在小模型上修修补补一样。

vxfla · 2023-04-13T08:49:38Z

我试着在MT5上做全量fine-tune，Instruct-tuning是可以激发一些模型对齐人类偏好的能力的，不过也很难面面俱到，而且MT5基本能力也不是很强。用精致的数据，做一个特定小领域的应该是有可能的。   将仙 ***@***.***  

…

------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年4月13日(星期四) 下午4:40 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [vxfla/kanchil] new features: 使用对大型模型剪枝后得到的小模型 (Issue #1) 那除了使用P-turning和lora接下来有别的打算没，我也对做一个精致的小模型感兴趣，但我之前尝试了p, Prefix, Prompt-turning, lora, ... 这些，效果不行，各种finetuning方法只像是在小模型上修修补补一样。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

new features: 使用对大型模型剪枝后得到的小模型 #1

new features: 使用对大型模型剪枝后得到的小模型 #1

thaumstrial commented Apr 13, 2023

vxfla commented Apr 13, 2023 via email

thaumstrial commented Apr 13, 2023

vxfla commented Apr 13, 2023 via email

new features: 使用对大型模型剪枝后得到的小模型 #1

new features: 使用对大型模型剪枝后得到的小模型 #1

Comments

thaumstrial commented Apr 13, 2023

vxfla commented Apr 13, 2023 via email

thaumstrial commented Apr 13, 2023

vxfla commented Apr 13, 2023 via email