知识库+对话的模式,碰到最值问题时的尴尬
例行检查
- [ ] 我已确认目前没有类似 issue
- [ ] 我已完整查看过项目 README,以及项目文档
- [ ] 我使用了自己的 key,并确认我的 key 是可正常使用的
- [ ] 我理解并愿意跟进此 issue,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭
你的版本 v4.7
- [ ] 公有云版本
- [ ] 私有部署版本, 具体版本号:
问题描述, 日志截图
知识库包含上百条的装备的知识,并成功分段成一个装备一个知识组,如图所示:
例如:当我提问"宽度最宽的坦克"
由于知识库搜索中有引用上限的限制,所以知识库搜索输出的引用中可能只包含几个坦克类型的知识。
即最终的答案并不是准确的,它给的回答只是在知识库搜索出的坦克中找到宽度最宽的坦克类型,并不是这个知识库中所有坦克中宽度最宽的坦克类型
有什么优化和解决方案吗? @nongmo677 @c121914yu @lijiajun1997
复现步骤
预期结果
相关截图
判断器 关键词判断出现类似最值和最新的问题,启动联网搜索。
判断器 关键词判断出现类似最值和最新的问题,启动联网搜索。
基于知识库里的知识进行最值问题呢 说白了就是知识范围的问题,因为有“引用上限”的限制,知识库引用的知识段只能是部分知识,感觉“引用上限”的会一直限制这类问题的回答范围,毕竟每个模型的input tokens是有限制的
判断器 关键词判断出现类似最值和最新的问题,启动联网搜索。
基于知识库里的知识进行最值问题呢 说白了就是知识范围的问题,因为有“引用上限”的限制,知识库引用的知识段只能是部分知识,感觉“引用上限”的会一直限制这类问题的回答范围,毕竟每个模型的input tokens是有限制的
那就没办法咯,或者只能手工加工知识库,把常用的问题穷举出来。
这个问题我觉得没什么好办法
其次我觉得是知识库存储的问题,按着你现在存储的内容,这个问题匹配出来的知识条目很多而且其他杂七杂八的数据又多,涉及宽度的信息少之又少,既占用了token,还占用了embedding和搜索的时间
要么你应该得有一张汇总表,而不是单纯只是每种类型的文本信息,要么你应该按着不同类别的不同信息进行存储,减少搜出来的知识长度,可以容纳多一点token,虽然这也不是很现实
复杂一点就Text2SQL让模型写代码操作汇总表查出来
fanstgpt如何查询指定数据库。
感觉有点困难,除了通过增大上下文外,目前想不到更好方法。