BabelDOC icon indicating copy to clipboard operation
BabelDOC copied to clipboard

对于有文本映射问题的PDF,无法准确翻译

Open zpofrp opened this issue 9 months ago • 2 comments

  1. 从IEEE中下载的论文,部分论文怀疑有文本映射问题,在pdf 阅读器(adobe acrobt、SumatraPDF 等等)中不能正常识别文本(复制文本,再粘贴出来显示乱码);
  2. 使用acrobat 导出为docx,并在word 中正常打开无乱码,并导出为PDF,这个导出的PDF 也完全正常;
  3. 在使用pdf2zh或babelDOC 翻译时候,输出文件*-mono.pdf 的正文部分与输入文件input.pdf完全一致,真正翻译了的地方是页脚与页眉(因为页脚与页眉的文本在pdf 阅读器中复制无乱码)。

附件为问题的PDF(自己怀疑为文本映射问题,刚好acrobat 导出为docx时,又修复了)。

2.2D die last integrated substrate for high performance applications_[Hu 等]_2021.pdf

zpofrp avatar Mar 27 '25 13:03 zpofrp

我也遇到了这一问题,pdf浏览器里复制的中文文本层是乱码

Akaka217 avatar May 09 '25 08:05 Akaka217

我尝试了一下,在edge浏览器里面复制中文会出现乱码,在其它pdf浏览器里面则不会,可能是edge浏览器的问题

wjy1010111 avatar May 10 '25 10:05 wjy1010111