Skip to content

Conversation

@0000005
Copy link

@0000005 0000005 commented Dec 9, 2025

原始max_tokens 被限制在了1024,这对于国内的一些模型会出现问题。
比如我使用智谱的glm 4.6时,会开启思考模式,思考过程也会占用token,当思考的token大于1024时,得到的回复结果会是一个空字符串。

所以提取profile 和 提取memory时就非常的不稳定,有的时候可以提取出来,有的时候则不能。

我去掉max_tokens限制之后,一切都运行的很好。

建议删除max_tokens的限制,应该优先保证使用效果,而不是控制成本(通过这种方式控制成本感觉也不太对)。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant