PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

表格中注释时,会把注释当作数值的一部分直接输出

Open YamiZhao123 opened this issue 1 month ago • 4 comments

🔎 Search before asking

  • [x] I have searched the PaddleOCR Docs and found no similar bug report.
  • [x] I have searched the PaddleOCR Issues and found no similar bug report.
  • [x] I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

表格中注释时,会把注释当作数值的一部分直接输出,这个3是数值,1是注释,结果数值

Image

直接被识别成31

🏃‍♂️ Environment (运行环境)

paddleOCR-VL

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

附件太大,直接下载SWM341系列MCU数据手册PDF,进行复现

YamiZhao123 avatar Nov 14 '25 07:11 YamiZhao123

感谢您提供的问题样例反馈,我们会在后续版本中参考该样例优化模型效果。

scyyh11 avatar Nov 15 '25 09:11 scyyh11

不是注释,那是上标,上标做为数学公式的

machinedoggy avatar Nov 18 '25 08:11 machinedoggy

Image 上标形式的注释,直接被当成普通数字了

还是SWM341 MCU数据手册这份,在硬件行业的技术资料里,这种形式很多

YamiZhao123 avatar Nov 18 '25 08:11 YamiZhao123

PaddleOCR-VL模型对于表格中上标识别不太稳定,这确实是badcase,后续会优化

zhangyubo0722 avatar Nov 18 '25 12:11 zhangyubo0722