工作流知识库搜索加入重排模型时,第二轮对话会把第一轮对话的AI回答作为重排搜索的内容
例行检查
- [ x] 我已确认目前没有类似 issue
- [ x] 我已完整查看过项目 README,以及项目文档
- [ x] 我使用了自己的 key,并确认我的 key 是可正常使用的
- [ x] 我理解并愿意跟进此 issue,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭
你的版本
- [ ] 公有云版本
- [ x] 私有部署版本, 具体版本号: V4.11.1
问题描述, 日志截图,配置文件等 工作流知识库搜索节点加入重排模型时,第二轮对话会把第一轮对话的AI回答也作为重排搜索的内容
复现步骤 前置:
- 知识库中有问答知识:Q:谢谢 A:不客气呢,有其他问题随时联系我哈~
- 搭建工作流,添加知识库搜索节点,且配置重排模型
第一轮对话:Q:不客气呢,有其他问题随时联系我哈~ A:不客气呢,有其他问题随时联系我哈~
第二轮对话:Q:有联系方式吗 该问题不在知识库中,无法搜索重排到,此时看第二轮对话的引用取的还是第一轮对话的AI回答作为搜索重排的输入内容
预期结果 知识库搜索重排的内容应该只搜索重排客户的新问题,不应该把上轮对话的AI答案作为搜索重排的输入 相关截图
不仅仅是工作流,简单应用使用了重排模型,也有这个问题;
这个问题一直存在,以前问过官方,说是不开问题优化就会默认携带6组历史记录进行重排。强制带历史记录参与重排,肯定会影响当次知识检索重排的准确性,因为扩大了范围,但官方解释说如果不带历史记录,50%概率排不到结果查不到内容。我们部署的商业版这种情况导致的现象就是,有时候感觉相关性很高的答案没有排靠前,反而是不太相关的排序靠前,因为前序的历史对话里有相关内容导致重排靠前了。虽然现在能调整降低重排的占比权重,但个人感觉总觉得逻辑上很别扭。我们应用为主,不太了解这里面的技术细节。
这个问题一直存在,以前问过官方,说是不开问题优化就会默认携带6组历史记录进行重排。强制带历史记录参与重排,肯定会影响当次知识检索重排的准确性,因为扩大了范围,但官方解释说如果不带历史记录,50%概率排不到结果查不到内容。我们部署的商业版这种情况导致的现象就是,有时候感觉相关性很高的答案没有排靠前,反而是不太相关的排序靠前,因为前序的历史对话里有相关内容导致重排靠前了。虽然现在能调整降低重排的占比权重,但个人感觉总觉得逻辑上很别扭。我们应用为主,不太了解这里面的技术细节。
我们内部修改了下,只重排当次对话内容的引用内容,好用多了
重排模型属于二次检索(第一次检索是语义检索,在此基础上进行第二次的检索,也就是重排检索)
当配置重排模型后,会把第一次的检索内容也带上了历史记录做语义检索,这种肯定影响当次输入内容的语义相似度
尤其是工作流中配置了知识库搜索的判断,尤其影响检索效果
这个问题一直存在,以前问过官方,说是不开问题优化就会默认携带6组历史记录进行重排。强制带历史记录参与重排,肯定会影响当次知识检索重排的准确性,因为扩大了范围,但官方解释说如果不带历史记录,50%概率排不到结果查不到内容。我们部署的商业版这种情况导致的现象就是,有时候感觉相关性很高的答案没有排靠前,反而是不太相关的排序靠前,因为前序的历史对话里有相关内容导致重排靠前了。虽然现在能调整降低重排的占比权重,但个人感觉总觉得逻辑上很别扭。我们应用为主,不太了解这里面的技术细节。
我们内部修改了下,只重排当次对话内容的引用内容,好用多了
大佬怎么改进的呀 我这也遇到同样的问题了,第二次重排过后引用了第一次检索的文件