知识库分段,怎么按照自定义分隔符严格分段?
知识库文件分段的时候,我已经自己用换行符分好段了,自定义分隔符设置好了, 结果理想分块长度怎么设置都不对,要么会合并多个段落,要么就把一个段落从中间分割开, 怎么直接按照我的自定义分隔符分段?
@c121914yu 建议预设几种常见的分割,比如标题或者段落或者自然页?但是我不知道pdf加载之后格式上有没有什么特征
@c121914yu 建议预设几种常见的分割,比如标题或者段落或者自然页?但是我不知道pdf加载之后格式上有没有什么特征
PDF 会转成 Markdown。。标题什么的肯定是按照 Markdown 的格式
自定义分段是不是不支持正则? 我想对通过换行对文本进行分段, 设置正则表达式没有生效 "(?<!\n)\n(?!\n)"
我用markdown也没法分的很顺畅。。。。
@c121914yu 建议预设几种常见的分割,比如标题或者段落或者自然页?但是我不知道pdf加载之后格式上有没有什么特征
已经支持
4.9.2 可以通过增大分块长度来保障自定义分割不被二次分块。
4.9.2 可以通过增大分块长度来保障自定义分割不被二次分块。
你好,我的版本是4.9.7, 然后我有很多md文档要传到知识库当中,但是上传后,md会被自动分段(不会按我的最大分块来分段),导致碎片化比较严重,rag问答的时候,总是缺少东西。 有没有什么方法能够禁用md的自动分段