请问,知识库--直接分段的最佳实践
4.8.7
请问知识库--直接分段的最佳实践是什么?处理方式:使用自动还是使用自定义规则。 如果为了更加精准匹配,是不是自定义规则更好一些?
【分块大小】和【每个分块的完整度】之间如何取舍? 每个分块是不是尽可能小? 每个分块是不是尽可能包含一个完整的内容?
如果一段完整的内容超过了理想分块长度(假设默认700),系统此时会分为两个分块,但是第二个分块由于没有上文的相关标题或者说明,会不会在知识库引用时无法引导第二个分块的内容,导致回答的问题不全面。
比如:
第一个分块是:
如何报销,具体操作如下,第一步:xxx,第二步xxx...............,相关图片如下
此时达到了分块长度700
第二个分块是:(注意,第一个分块中的图片,截取到了第二个分块中) 【截图1】(图片的url),第三步xxxx,第四步yyyy 此时达到了分块长度700
第三个分块是:(注意,第二个分块的最后一句话截取了半句) yyyy,第五步xxxx
如果按照以上示例的分块模式,用户搜索【报销的相关操作】时,是不是无法获取第二个分块、第三个分块的内容。
如果内容已经无法再精简了,这种情况该如何处理?
最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。
我的分块策略。
能否优化下知识库功能,实现多个分块之间建立起关联关系,当召回某一个块时,自动把与这个块相关联的其他块一起召回
---原始邮件--- 发件人: @.> 发送时间: 2024年7月30日(周二) 中午1:01 收件人: @.>; 抄送: @.@.>; 主题: Re: [labring/FastGPT] 请问,知识库--直接分段的最佳实践 (Issue #2189)
最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
最好自定义分块,完整的内容在同一个分块中,如果有跨块的内容最好在前面补全标题。比如“报销流程”,在每个块前面增加“报销流程”。
我的分块策略。
你是怎么实现的?把原始word文件在相应的位置先插入相同的话,然后再进行拆分吗?
你好 这个标题怎么加上去的呢
转成markdown格式后调整层级,进行自动分段
我的分块策略。