PaddleOCR
PaddleOCR copied to clipboard
重要信息如标题被当作页眉页脚过滤掉了
🔎 Search before asking
- [x] I have searched the PaddleOCR Docs and found no similar bug report.
- [x] I have searched the PaddleOCR Issues and found no similar bug report.
- [x] I have searched the PaddleOCR Discussions and found no similar bug report.
🐛 Bug (问题描述)
技术文档的页眉页脚都很重要,含标题、作者、时间、版本等核心信息,不应该直接被过滤掉,而应该是可配置项
🏃♂️ Environment (运行环境)
https://aistudio.baidu.com/paddleocr
🌰 Minimal Reproducible Example (最小可复现问题的Demo)
目前页眉确实会被过滤,不过你的建议很好,我们会在最近的版本增加相关的开关,支持显示页眉、页脚等文字。不过当前在保存的JSON中,是完整保留了相关的内容的,可以尝试解析JSON文件,完成对相应内容的提取。
我感觉paddle好像对文档或图片四周进行了裁剪,文档影响稍小,毕竟正文在中央,图像影响太大了,顶行、底行经常被忽略。