PaddleOCR
PaddleOCR copied to clipboard
表格识别很强,但布局识别效果比较混乱,能不能和minerU强强联合
🔎 Search before asking
- [x] I have searched the PaddleOCR Docs and found no similar bug report.
- [x] I have searched the PaddleOCR Issues and found no similar bug report.
- [x] I have searched the PaddleOCR Discussions and found no similar bug report.
🐛 Bug (问题描述)
多栏布局情况下排版情况混乱,数据穿插甚至遗漏,不如minerU、合合信息等
🏃♂️ Environment (运行环境)
直接在飞桨平台测试的
🌰 Minimal Reproducible Example (最小可复现问题的Demo)
排版顺序很乱,不如合合信息和minerU
对应关系都丢失了,到时候处理信息就很麻烦
右边数据全部遗漏
感谢反馈bad case!关于阅读顺序问题,我们在内部和公开评测集上均进行了严格把关,目前在常规文档场景中已取得业内领先效果。但您反馈的文档类型较为特殊,当前阶段的PP-DocLayout模型在此类场景下泛化能力有限。我们将在下一个版本中进一步优化对这类文档的支持。欢迎您继续将更多bad case发送至我们的邮箱:[email protected]。PaddleOCR模型的持续进步离不开每一位开发者宝贵的真实反馈,非常感谢您的支持!笔芯~