chatdoc
chatdoc copied to clipboard
pdf文件有乱码以及会错误的切割
CJKPDFReader读取的效果:
原始文档中截图:

对于我的文档,无论是用代码中的CJKPDFReader还是PyPDF2发现都有比较多的乱码和错误的换行符,文档切割的非常差,导致无法正常回答问题,请问有什么办法解决吗?
可以在获取到pdf文本后再次进行清洗, 比如去除所有空白字符, 然后再进行索引
@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。

①②等字符识别出来会变成其它的中文字:
\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)
这个我也没什么好的思路了
@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。
![]()
①②等字符识别出来会变成其它的中文字:
\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)
会不会缺少相应的字体库引起乱码的?