FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

建议实现word文档连续两次回车分块的功能

Open hjqcn opened this issue 9 months ago • 15 comments

例行检查

  • [x] 我已确认目前没有类似 features
  • [x] 我已确认我已升级到最新版本
  • [x] 我已完整查看过项目 README,已确定现有版本无法满足需求
  • [x] 我理解并愿意跟进此 features,协助测试和提供反馈
  • [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭

功能描述 建议实现word文档连续两次回车分块的功能,经测试采用默认分割或以下自定义分割均不生效: \n\n \r\n (\r?\n|\r){2} (\r?\n|\r){3} 应用场景 知识库创建时,能更快更好的适应文档原本格式的需要,建议默认为 相关示例 设置分割符为\n\n时能自动识别word文档连续两次回车作为分割符

Image

Image

Image

hjqcn avatar Mar 18 '25 09:03 hjqcn

我觉得加一个代码运行工具 里面写一个对应的js脚本就可以处理

SimonSkywalke avatar Mar 22 '25 08:03 SimonSkywalke

4.9.2已支持

c121914yu avatar Mar 27 '25 11:03 c121914yu

这个升级堪称灾难,两个回车没实现,把原来能自已定义的分割符的功能给阉割掉了。

Image

Image

Image

hjqcn avatar Mar 28 '25 04:03 hjqcn

建议还是改回自自己输入分割符的模式,如\n\n代表两个回车。\n\n\n代表三个回 车,也可以继续使用其它的分割符。

hjqcn avatar Mar 28 '25 04:03 hjqcn

好好看,不是有自定义么

c121914yu avatar Mar 28 '25 04:03 c121914yu

sorry,自定义,拉到最下面就有了,下拉第一屏默认是看不到的。 自定义:\n\n,也是识别的不对,把上图的文档分成三段了,实际应该分两段。

hjqcn avatar Mar 28 '25 04:03 hjqcn

Image

Image

试了试好像没啥问题

c121914yu avatar Mar 28 '25 04:03 c121914yu

md文件可以,但word不行。

hjqcn avatar Mar 28 '25 07:03 hjqcn

md文件可以,但word不行。

确实,看起来并不是分块的问题,可能解析 word 时候,换行丢失了。

c121914yu avatar Mar 28 '25 08:03 c121914yu

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

penghaiqiu1988 avatar Apr 07 '25 13:04 penghaiqiu1988

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

自己转成 txt 就行了,docx 转 md 会丢失双换行,短期不打算支持。maxkb 直接转成纯文本,效果太差,基本不可用。

c121914yu avatar Apr 07 '25 13:04 c121914yu

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

自己转成 txt 就行了,docx 转 md 会丢失双换行,短期不打算支持。maxkb 直接转成纯文本,效果太差,基本不可用。

txt 跟word完全不是一回事,最大的问题是不是图文。

hjqcn avatar Apr 07 '25 13:04 hjqcn

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

自己转成 txt 就行了,docx 转 md 会丢失双换行,短期不打算支持。maxkb 直接转成纯文本,效果太差,基本不可用。

txt 跟word完全不是一回事,最大的问题是不是图文。

那不简单,粘贴到 md 里不就好了

c121914yu avatar Apr 07 '25 14:04 c121914yu

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

自己转成 txt 就行了,docx 转 md 会丢失双换行,短期不打算支持。maxkb 直接转成纯文本,效果太差,基本不可用。

txt 跟word完全不是一回事,最大的问题是不是图文。

那不简单,粘贴到 md 里不就好了 哈哈,还粘贴到 md ,不懂业务就算啦, 企业内部大量的c传统word文档是说转就转的吗?md只适合码农使用

hjqcn avatar Apr 07 '25 16:04 hjqcn

当前测试4.9.3仍然不支持word文档的双换行分段,maxkb那边的双换行分段就支持的比较好。

自己转成 txt 就行了,docx 转 md 会丢失双换行,短期不打算支持。maxkb 直接转成纯文本,效果太差,基本不可用。

主要是txt不支持图文-_-!。那边我试了下,maxkb的知识库docx文档设置“直接回答”模式是可以识别图片并显示出来的(应该是图片链接的形式),命中测试也都挺准确。

penghaiqiu1988 avatar Apr 08 '25 06:04 penghaiqiu1988