FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

请问,知识库--直接分段的最佳实践

Open goactiongo opened this issue 1 year ago • 4 comments

4.8.7

请问知识库--直接分段的最佳实践是什么?处理方式:使用自动还是使用自定义规则。 如果为了更加精准匹配,是不是自定义规则更好一些?

【分块大小】和【每个分块的完整度】之间如何取舍? 每个分块是不是尽可能小? 每个分块是不是尽可能包含一个完整的内容?

如果一段完整的内容超过了理想分块长度(假设默认700),系统此时会分为两个分块,但是第二个分块由于没有上文的相关标题或者说明,会不会在知识库引用时无法引导第二个分块的内容,导致回答的问题不全面。

比如: 第一个分块是: 如何报销,具体操作如下,第一步:xxx,第二步xxx...............,相关图片如下
此时达到了分块长度700

第二个分块是:(注意,第一个分块中的图片,截取到了第二个分块中) 【截图1】(图片的url),第三步xxxx,第四步yyyy 此时达到了分块长度700

第三个分块是:(注意,第二个分块的最后一句话截取了半句) yyyy,第五步xxxx

如果按照以上示例的分块模式,用户搜索【报销的相关操作】时,是不是无法获取第二个分块、第三个分块的内容。

如果内容已经无法再精简了,这种情况该如何处理?

goactiongo avatar Jul 29 '24 02:07 goactiongo

最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。 image 我的分块策略。

yibohub avatar Jul 30 '24 05:07 yibohub

能否优化下知识库功能,实现多个分块之间建立起关联关系,当召回某一个块时,自动把与这个块相关联的其他块一起召回

---原始邮件--- 发件人: @.> 发送时间: 2024年7月30日(周二) 中午1:01 收件人: @.>; 抄送: @.@.>; 主题: Re: [labring/FastGPT] 请问,知识库--直接分段的最佳实践 (Issue #2189)

最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

goactiongo avatar Jul 30 '24 05:07 goactiongo

最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。 image 我的分块策略。

你是怎么实现的?把原始word文件在相应的位置先插入相同的话,然后再进行拆分吗?

chung1912 avatar Aug 13 '24 08:08 chung1912

你好 这个标题怎么加上去的呢

gongjl123 avatar Sep 18 '24 12:09 gongjl123

转成markdown格式后调整层级,进行自动分段

emsantag avatar Nov 07 '24 06:11 emsantag