FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

用EXCEL上传知识库文档检索不准确

Open xuwtgx opened this issue 1 year ago • 3 comments

例行检查

  • [x] 我已确认目前没有类似 issue
  • [x] 我已完整查看过项目 README,以及项目文档
  • [x] 我使用了自己的 key,并确认我的 key 是可正常使用的
  • [x] 我理解并愿意跟进此 issue,协助测试和提供反馈
  • [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭

你的版本

  • [ ] 公有云版本
  • [x] 私有部署版本, 具体版本号:

问题描述, 日志截图 用excel上传文档检索不准确:

复现步骤 上传格式: dataId,q,a,index1,index2 1,问题1,答案1,自定义索引1,自定义索引2 2,问题2,答案2,自定义索引3,自定义索引4 按照索引检索

知识库中的某一个段落: image

具体段落内容:

dataId q a index1 index2
87 5.4.3霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法 1、工程措施\n土地平整:土地平整采用74kw推土机推平,部分需倒运的采用2m3装载机挖装10t自卸车运输,边角地或施工机械无法施工的区域采取人工平整,土地平整后地面高差小于30cm。\n表土剥离:采取条带耕作层外移剥离法进行表土剥离施工,即按条带由内向外剥离、运输。\n覆土回填:将地面松散土层挖掘至坡脚清理干净,待回填土料到位后,再将土回填至相应位置;将原有表土留下一定厚度的新土层,同时水平回填新土至设计高度。\n2、临时措施\n临时措施主要为洒水降尘及密目网苫盖,其施工以人工为主,机械为辅。\n1)洒水:洒水除尘采用8m3洒水车洒水,每次0.5L/m2,遇3级到5级大风天气每天可加大洒水量。\n2)密目网苫盖:本工程所需密目网统一由清水河购买。密目网苫盖施工相对简单,人工场内运输、铺盖、搭接,重复搭接的宽度控制在20cm,在坡脚和重复搭接处压盖块石,每隔3m压盖一块块石,块石粒径15~20cm。施工结束后人工移除块石、收回密目网,能重复利用的,回收利用,不能重复利用的,集中处理。 5.4.3霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法 霍尔果斯市伊车嘎善乡(伊车嘎善村)高标准农田建设项目施工方法

搜索测试结果: image

预期结果 预期可以搜索到相关段落 相关截图 需要再次手动添加自定义索引才可以搜索到段落内容: image

xuwtgx avatar Sep 29 '24 10:09 xuwtgx

其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧

RipperTs avatar Oct 08 '24 07:10 RipperTs

其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧 我不是这么认为的,目前我手动添加自定义索引,可以准确检索,下图: image 首先说明一下,自动的index1,和index2以及手动的索引是一致的,但是目前在使用过程中,手动的索引是准确的

xuwtgx avatar Oct 08 '24 10:10 xuwtgx

其实数据召回质量是个难题,试试更换Embedding模型或者加入重排模型吧 我不是这么认为的,目前我手动添加自定义索引,可以准确检索,下图: image 首先说明一下,自动的index1,和index2以及手动的索引是一致的,但是目前在使用过程中,手动的索引是准确的

这个自定义索引是什么呢? 如果你只是以这种方式上传的话,他会把所有文本内容一起索引。而你手动添加自定义索引的话,他只会检索自定义索引的部分,所以你看到了相似度1.000

glimmer1998 avatar Oct 14 '24 06:10 glimmer1998