pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

_hide_page_text这个函数的并没有隐藏全部的文字

Open alexw994 opened this issue 2 years ago • 2 comments

大佬好 看起来_hide_page_text是想在分割pdf版面前隐藏所有文字,但是它只能隐藏图片中的文字,我不清楚这是否是出于设计,这会有什么可能的问题吗? image

alexw994 avatar Aug 09 '23 08:08 alexw994

hey pls see on my issue !

AntonSibgatulin avatar Aug 19 '23 12:08 AntonSibgatulin

@alexw994 本意是隐藏所有文字,只留下图片。因为对于单通道图片,通过pymupdf提取出来的图片的颜色不对,就改用直接截图的方式。此时为了避免截取到潜在的文字,所以事先隐藏所有文字。

你上传的截图中,剩下的应该都是图片了,包括看到的“文字”。如果确实是文字而没被隐藏,方便的话请提供原始PDF供测试。谢谢。

dothinking avatar Jan 23 '24 13:01 dothinking