Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问合并权重时报错应该如何解决 #3

Open
zhufq00 opened this issue May 19, 2023 · 16 comments
Open

请问合并权重时报错应该如何解决 #3

zhufq00 opened this issue May 19, 2023 · 16 comments

Comments

@zhufq00
Copy link

zhufq00 commented May 19, 2023

1684470490155
@bupticybee
Copy link
Owner

1684470490155

这个问题是这样的,自动存储的权重有问题,需要手动从checkpoint里边拷贝出来,就是那个pytorch_model.bin,需要拷贝到上一级目录并且重新命名一下

@bupticybee
Copy link
Owner

话说你的上一个issue解决了么?

@zhufq00
Copy link
Author

zhufq00 commented May 19, 2023

我限制了用卡数目为4就能用了,不知道是什么问题,最近紧急搞了一下没时间细看了。另外我发现epoch设置的有问题,我设置为3和6都只保存了step为200的,按道理来讲除了保存中间状态还应该把最后训练完的保存下

@zhufq00
Copy link
Author

zhufq00 commented May 19, 2023

然后这个generate.py要是能改一下改成和fastchat一样就好了,这个里面还是demo,虽然可以把权重转换好之后就用fastchat了

@bupticybee
Copy link
Owner

我限制了用卡数目为4就能用了,不知道是什么问题,最近紧急搞了一下没时间细看了。另外我发现epoch设置的有问题,我设置为3和6都只保存了step为200的,按道理来讲除了保存中间状态还应该把最后训练完的保存下

蛤这么神奇么,我反正就是通过拷贝checkpoint解决的

@bupticybee
Copy link
Owner

然后这个generate.py要是能改一下改成和fastchat一样就好了,这个里面还是demo,虽然可以把权重转换好之后就用fastchat了

这个你要是感兴趣是否可以帮忙提下代码?我更多精力还是放在模型本身上~

@zhufq00
Copy link
Author

zhufq00 commented May 19, 2023

pytorch_model.bin拷贝到上一级目录之后需要重命名成啥呀,感谢!

@bupticybee
Copy link
Owner

pytorch_model.bin拷贝到上一级目录之后需要重命名成啥呀,感谢!

有点忘了,就是上层本来就有个模型,后缀是啥忘了,反正是二进制类型的,应该很好找?

@bupticybee
Copy link
Owner

我这周末可能加到readme里边一下,整个导出的流程

@zhufq00
Copy link
Author

zhufq00 commented May 19, 2023

感谢你的杰出贡献,并与社区分享你的专业知识。我对你的工作真心表示赞赏。by chatgpt

@zhufq00
Copy link
Author

zhufq00 commented May 19, 2023

把pytorch_model.bin 移到上一级之后改名为adapter_model.bin,然后再把原模型目录下的tokenizer*加到输出目录就可以用fastchat输出了,但是这次用lora训出来的效果很差,但是貌似在tokenizer方面有bug,会输出乱码

@bupticybee
Copy link
Owner

把pytorch_model.bin 移到上一级之后改名为adapter_model.bin,然后再把原模型目录下的tokenizer*加到输出目录就可以用fastchat输出了,但是这次用lora训出来的效果很差,但是貌似在tokenizer方面有bug,会输出乱码

对,这里也需要改

@bupticybee
Copy link
Owner

把pytorch_model.bin 移到上一级之后改名为adapter_model.bin,然后再把原模型目录下的tokenizer*加到输出目录就可以用fastchat输出了,但是这次用lora训出来的效果很差,但是貌似在tokenizer方面有bug,会输出乱码

对,这里也需要改

我给你找下

@bupticybee
Copy link
Owner

tokenlizer (1).zip
用这个tokenlizer

@bupticybee
Copy link
Owner

这个我也稍微探索了下才发现有问题的,训练的时候改了tokenlizer,所以不能用llama的默认的了

@bupticybee
Copy link
Owner

你可以把训练的loss贴一下,基本在1以下或者左右就应该训练的不错了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants