ZhangQi
Results
1
comments of
ZhangQi
> #241 你的问题跟这个应该很像,但是我们认为用unicode2ascii不是一个好的方案,如果您有好的方案也可以提供给我们 我发现问题所在了。 我看了源码,在0.7版本中,提取文本型PDF的文本时,使用的`txt_spans_extract`函数,其中调用pymupdf的`get_text`函数提取文本,这个函数的`flag`参数你们用的是`fitz.TEXTFLAGS_TEXT`,按[pymupdf文档里](https://pymupdf.readthedocs.io/en/latest/vars.html)所述,`TEXTFLAGS_TEXT = TEXT_PRESERVE_LIGATURES | TEXT_PRESERVE_WHITESPACE | TEXT_MEDIABOX_CLIP | TEXT_CID_FOR_UNKNOWN_UNICODE`,它是多个选项的并集,其中有个选项`TEXT_PRESERVE_LIGATURES`表示会保留所有的连字,也就是ff, fi这种连字。如果去掉这个flag应该就不会输出连字的ff,而是输出两个字符ff。 简单讲,在使用了`fitz.TEXTFLAGS_TEXT`的地方,应该换一个flag,即 `TEXT_PRESERVE_WHITESPACE | TEXT_MEDIABOX_CLIP | TEXT_CID_FOR_UNKNOWN_UNICODE`。