Open
Description
MaxKB Version
1.10.7-lts
Please describe your needs or suggestions for improvements
有两个问题:
1、 目前导入web站点的知识库,无法设置分段逻辑
2、分段逻辑太细,导致知识点割裂严重,如下图,一个忘记密码,分成了n段。实际上这种文档只需要一个文档片段就完全可以容纳下,不需要分多条
命中测试只命中了其中一条,最终回答的时候就完全是错误的。
Please describe the solution you suggest
我期望的效果像fastgpt那样
1、能够设置文本片段的最大长度,当不超过最大长度时,不管文档的标题层级结构,都把它们放在一个片段里,只有在超出长度时才放到下一个片段
2、文本片段和向量索引大小分开设置,这样只要命中其中任何一个索引,都可以把整个文本片段挑选出来。这样既可以减少文档割裂,又能提升命中率
Additional Information
No response