PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

重要信息如标题被当作页眉页脚过滤掉了

Open YamiZhao123 opened this issue 1 month ago • 2 comments

🔎 Search before asking

  • [x] I have searched the PaddleOCR Docs and found no similar bug report.
  • [x] I have searched the PaddleOCR Issues and found no similar bug report.
  • [x] I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

技术文档的页眉页脚都很重要,含标题、作者、时间、版本等核心信息,不应该直接被过滤掉,而应该是可配置项

🏃‍♂️ Environment (运行环境)

https://aistudio.baidu.com/paddleocr

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Image

YamiZhao123 avatar Oct 31 '25 07:10 YamiZhao123

目前页眉确实会被过滤,不过你的建议很好,我们会在最近的版本增加相关的开关,支持显示页眉、页脚等文字。不过当前在保存的JSON中,是完整保留了相关的内容的,可以尝试解析JSON文件,完成对相应内容的提取。

cuicheng01 avatar Oct 31 '25 18:10 cuicheng01

我感觉paddle好像对文档或图片四周进行了裁剪,文档影响稍小,毕竟正文在中央,图像影响太大了,顶行、底行经常被忽略。

gsm1258 avatar Nov 02 '25 05:11 gsm1258