pdf2docx
pdf2docx copied to clipboard
_hide_page_text这个函数的并没有隐藏全部的文字
大佬好
看起来_hide_page_text是想在分割pdf版面前隐藏所有文字,但是它只能隐藏图片中的文字,我不清楚这是否是出于设计,这会有什么可能的问题吗?
hey pls see on my issue !
@alexw994 本意是隐藏所有文字,只留下图片。因为对于单通道图片,通过pymupdf提取出来的图片的颜色不对,就改用直接截图的方式。此时为了避免截取到潜在的文字,所以事先隐藏所有文字。
你上传的截图中,剩下的应该都是图片了,包括看到的“文字”。如果确实是文字而没被隐藏,方便的话请提供原始PDF供测试。谢谢。