PaddleOCR-VL不支持横屏和竖屏图片旋转识别
🔎 Search before asking
- [x] I have searched the PaddleOCR Docs and found no similar bug report.
- [x] I have searched the PaddleOCR Issues and found no similar bug report.
- [x] I have searched the PaddleOCR Discussions and found no similar bug report.
🐛 Bug (问题描述)
在微信小程序调用相机时,由于底层的原因有概率导致竖屏的拍照变横屏图片,或者横屏拍照的图片变竖屏,导致需要识别的图片自动旋转了90度,在我们的测试用例中,目前PaddleOCR-VL模型对旋转后的图片识别率明显变低,希望加上自动纠正的算法或者基座模型加上旋转的数据进行进一步训练和微调。
🏃♂️ Environment (运行环境)
Python 3.13
🌰 Minimal Reproducible Example (最小可复现问题的Demo)
因合规不方便发公网,如需图片请留个邮箱
PaddleOCR-VL 内置了「文档方向分类」子模块,可以检测并返回页面的旋转角度,用于自动纠偏。
在 CLI 中,只需要在命令里加上 --use_doc_orientation_classify True 即可启用,例如:
paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_doc_orientation_classify True
如果使用 Python API,可以在实例化时开启该模块:
from paddlex import PaddleOCRVL
ocr = PaddleOCRVL(use_doc_orientation_classify=True)
启用后,预测结果中的 doc_preprocessor_res 会包含一个 angle 字段,用于表示文档图像的实际旋转角度,后续可以据此对图像做旋转矫正。该能力默认关闭,如有需要需手动打开。
更多细节可以参考官方文档: https://www.paddleocr.ai/latest/version3.x/pipeline_usage/PaddleOCR-VL.html
这是自动回复邮件。 您好,您的邮件已到达我的邮箱,我将尽快查阅并回复,谢谢。Hello, I have reveived your email. But due to the time differences and my busy work, perhaps I will reply to you in 24 to 48 hours.