FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

文档解析功能api

Open yuhp-zts opened this issue 1 year ago • 7 comments

例行检查

  • [ ] 我已确认目前没有类似 features
  • [ ] 我已确认我已升级到最新版本
  • [ ] 我已完整查看过项目 README,已确定现有版本无法满足需求
  • [ ] 我理解并愿意跟进此 features,协助测试和提供反馈
  • [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭

功能描述 fastgpt在文档解析这块做的挺不错的,想咨询下文档解析这个功能是否有相应的api支持传入文档,直接返回解析后的数据。或者是否有可实现这个功能的别的参考方案呢?

应用场景 想实现用户在聊天时,上传一个文档,将这个文档作为context,并基于这个context做相应的问答。 相关示例

yuhp-zts avatar Apr 23 '24 10:04 yuhp-zts

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

mxdlzg avatar Apr 23 '24 13:04 mxdlzg

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

效果有增强不,之前我们使用dify的项目,他们也用到unstructured这个了,但是感觉pdf解析的很一般,不如fastgpt的

yuhp-zts avatar Apr 24 '24 00:04 yuhp-zts

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

效果有增强不,之前我们使用dify的项目,他们也用到unstructured这个了,但是感觉pdf解析的很一般,不如fastgpt的

我主要是用来解析图片和表格,效果还行,但是缺点就是太慢了。它虽然有fast模式很快,但是不能解析图片表格这些。 总的来说适合异步离线任务,实时分析的话需要的部署设备性能很高。

mxdlzg avatar Apr 24 '24 02:04 mxdlzg

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

效果有增强不,之前我们使用dify的项目,他们也用到unstructured这个了,但是感觉pdf解析的很一般,不如fastgpt的

我主要是用来解析图片和表格,效果还行,但是缺点就是太慢了。它虽然有fast模式很快,但是不能解析图片表格这些。 总的来说适合异步离线任务,实时分析的话需要的部署设备性能很高。

最近我找到一个很好的文档解析库,100页PDF<=5s完成,并且在表格、段落、图片上效果特别好;可以直接输出md格式;

PowerOwner avatar Apr 30 '24 07:04 PowerOwner

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

效果有增强不,之前我们使用dify的项目,他们也用到unstructured这个了,但是感觉pdf解析的很一般,不如fastgpt的

我主要是用来解析图片和表格,效果还行,但是缺点就是太慢了。它虽然有fast模式很快,但是不能解析图片表格这些。 总的来说适合异步离线任务,实时分析的话需要的部署设备性能很高。

最近我找到一个很好的文档解析库,100页PDF<=5s完成,并且在表格、段落、图片上效果特别好;可以直接输出md格式;

哪个?

mxdlzg avatar Apr 30 '24 09:04 mxdlzg

确实,他是用模型跑的,性能要求高。我没看懂它官方镜像,,感觉没有直接可用的镜像api,需要源码改动后打包~

c121914yu avatar Apr 30 '24 09:04 c121914yu

请问是哪个文档解析库啊

发件人:"Wei Tingjiang" @.> 发送日期:2024-04-30 17:44:17 收件人:labring/FastGPT @.> 抄送人:yuhp-zts @.>, Author @.> 主 题:Re: [labring/FastGPT] 文档解析功能api (Issue #1272)

感觉可以看看unstructured这个库,我在自己的fork上给pdf解析引入了它

效果有增强不,之前我们使用dify的项目,他们也用到unstructured这个了,但是感觉pdf解析的很一般,不如fastgpt的

我主要是用来解析图片和表格,效果还行,但是缺点就是太慢了。它虽然有fast模式很快,但是不能解析图片表格这些。 总的来说适合异步离线任务,实时分析的话需要的部署设备性能很高。

最近我找到一个很好的文档解析库,100页PDF<=5s完成,并且在表格、段落、图片上效果特别好;可以直接输出md格式;

哪个?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

yuhp-zts avatar May 01 '24 01:05 yuhp-zts