-
Notifications
You must be signed in to change notification settings - Fork 1.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
运行13B模型时报错:expected [5120 x 49953], got [5120 x 49952] #133
Comments
你量化的是LLaMA模型吗?LLaMA模型的词表大小是49953,我估计和49953不能被2整除有关; |
试了一下Alpaca的7B和13B模型都没有问题,output.weight 都是 [5120 x 49954]。 |
因为13B的pth文件有两个,每个文件存矩阵一半的维度。 暂时没有特别好的解决办法。如果你有一定nlp或dl经验,可以手动padding两个pth中不一致的维度,或给lora权重中的embedding加一维,强行使总维度为49954,然后配合alpaca_tokenizer使用。 |
我也遇到了相同的问题,不过即使不采用量化,加载原始模型,报的错误也是这个,不知道是不是扩充权重出的问题 |
是加载pth模型文件吗 |
不是,直接加载的ggml-model-f16.bin |
哦,那原因可能和我上面说的一样,是llama.cpp转torch到ggml时的问题 |
我认为是llama.cpp的问题。然后处理的办法就比较残暴了,将llama.cpp第956行:model.output = ml->get_tensor("output.weight", {n_embd, n_vocab}); 改为:model.output = ml->get_tensor("output.weight", {n_embd, n_vocab-1}); |
ggml.c文件里没有 |
sorry,在llama.cpp里 |
chinese-llama-lora-7b已经成功合并运行了,用同样的步骤测试13b的模型时,到了最后一步运行模型时报了以下错误:
运行的命令是:
./main -m ./models_cn/13B/ggml-model-q4_0.bin --color -ins -t 8 --temp 0.2 -n 256 --repeat_penalty 1.3 -i -r "用户:" -p "对话"
这里是说'output.weight'的形状不对,所以看了下上一步quantize的过程,发现第1步时是[5120 x 49953],但到最后一步的output.weight就变成了[5120 x 49952]。49953这个数量在config.json中有配置,我发现7B的目录下有config.json,但是13B的目录下没有这个文件。
quantize的输出如下:
请问这个可能是哪里的问题呢?
The text was updated successfully, but these errors were encountered: