chatdoc icon indicating copy to clipboard operation
chatdoc copied to clipboard

pdf文件有乱码以及会错误的切割

Open magicleo opened this issue 1 year ago • 4 comments

CJKPDFReader读取的效果: image

原始文档中截图:

image

对于我的文档,无论是用代码中的CJKPDFReader还是PyPDF2发现都有比较多的乱码和错误的换行符,文档切割的非常差,导致无法正常回答问题,请问有什么办法解决吗?

magicleo avatar Mar 30 '23 01:03 magicleo

可以在获取到pdf文本后再次进行清洗, 比如去除所有空白字符, 然后再进行索引

daodao97 avatar Mar 30 '23 03:03 daodao97

@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。

image

①②等字符识别出来会变成其它的中文字:

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

magicleo avatar Mar 30 '23 03:03 magicleo

这个我也没什么好的思路了

daodao97 avatar Mar 30 '23 07:03 daodao97

@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。

image

①②等字符识别出来会变成其它的中文字:

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

会不会缺少相应的字体库引起乱码的?

hujb2000 avatar Aug 31 '23 13:08 hujb2000