FastGPT
FastGPT copied to clipboard
用EXCEL上传知识库文档检索不准确
例行检查
- [x] 我已确认目前没有类似 issue
- [x] 我已完整查看过项目 README,以及项目文档
- [x] 我使用了自己的 key,并确认我的 key 是可正常使用的
- [x] 我理解并愿意跟进此 issue,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭
你的版本
- [ ] 公有云版本
- [x] 私有部署版本, 具体版本号:
问题描述, 日志截图 用excel上传文档检索不准确:
复现步骤 上传格式: dataId,q,a,index1,index2 1,问题1,答案1,自定义索引1,自定义索引2 2,问题2,答案2,自定义索引3,自定义索引4 按照索引检索
知识库中的某一个段落:
具体段落内容:
| dataId | q | a | index1 | index2 |
|---|---|---|---|---|
| 87 | 5.4.3霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法 | 1、工程措施\n土地平整:土地平整采用74kw推土机推平,部分需倒运的采用2m3装载机挖装10t自卸车运输,边角地或施工机械无法施工的区域采取人工平整,土地平整后地面高差小于30cm。\n表土剥离:采取条带耕作层外移剥离法进行表土剥离施工,即按条带由内向外剥离、运输。\n覆土回填:将地面松散土层挖掘至坡脚清理干净,待回填土料到位后,再将土回填至相应位置;将原有表土留下一定厚度的新土层,同时水平回填新土至设计高度。\n2、临时措施\n临时措施主要为洒水降尘及密目网苫盖,其施工以人工为主,机械为辅。\n1)洒水:洒水除尘采用8m3洒水车洒水,每次0.5L/m2,遇3级到5级大风天气每天可加大洒水量。\n2)密目网苫盖:本工程所需密目网统一由清水河购买。密目网苫盖施工相对简单,人工场内运输、铺盖、搭接,重复搭接的宽度控制在20cm,在坡脚和重复搭接处压盖块石,每隔3m压盖一块块石,块石粒径15~20cm。施工结束后人工移除块石、收回密目网,能重复利用的,回收利用,不能重复利用的,集中处理。 | 5.4.3霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法 | 霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法 |
搜索测试结果:
预期结果
预期可以搜索到相关段落
相关截图
需要再次手动添加自定义索引才可以搜索到段落内容:
其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧
其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧 我不是这么认为的,目前我手动添加自定义索引,可以准确检索,下图:
首先说明一下,自动的index1,和index2以及手动的索引是一致的,但是目前在使用过程中,手动的索引是准确的
其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧 我不是这么认为的,目前我手动添加自定义索引,可以准确检索,下图:
首先说明一下,自动的index1,和index2以及手动的索引是一致的,但是目前在使用过程中,手动的索引是准确的
这个自定义索引是什么呢? 如果你只是以这种方式上传的话,他会把所有文本内容一起索引。而你手动添加自定义索引的话,他只会检索自定义索引的部分,所以你看到了相似度1.000
首先说明一下,自动的index1,和index2以及手动的索引是一致的,但是目前在使用过程中,手动的索引是准确的