BabelDOC
BabelDOC copied to clipboard
对于有文本映射问题的PDF,无法准确翻译
- 从IEEE中下载的论文,部分论文怀疑有文本映射问题,在pdf 阅读器(adobe acrobt、SumatraPDF 等等)中不能正常识别文本(复制文本,再粘贴出来显示乱码);
- 使用acrobat 导出为docx,并在word 中正常打开无乱码,并导出为PDF,这个导出的PDF 也完全正常;
- 在使用pdf2zh或babelDOC 翻译时候,输出文件*-mono.pdf 的正文部分与输入文件input.pdf完全一致,真正翻译了的地方是页脚与页眉(因为页脚与页眉的文本在pdf 阅读器中复制无乱码)。
附件为问题的PDF(自己怀疑为文本映射问题,刚好acrobat 导出为docx时,又修复了)。
2.2D die last integrated substrate for high performance applications_[Hu 等]_2021.pdf
我也遇到了这一问题,pdf浏览器里复制的中文文本层是乱码
我尝试了一下,在edge浏览器里面复制中文会出现乱码,在其它pdf浏览器里面则不会,可能是edge浏览器的问题