chatdoc pdf文件有乱码以及会错误的切割

CJKPDFReader读取的效果：

原始文档中截图：

对于我的文档，无论是用代码中的CJKPDFReader还是PyPDF2发现都有比较多的乱码和错误的换行符，文档切割的非常差，导致无法正常回答问题，请问有什么办法解决吗？

Mar 30 '23 01:03 magicleo

可以在获取到pdf文本后再次进行清洗, 比如去除所有空白字符, 然后再进行索引

Mar 30 '23 03:03 daodao97

@daodao97 感谢回复，空白字符还比较好处理，但是很多乱码字符我不知道怎么处理。

①②等字符识别出来会变成其它的中文字：

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

Mar 30 '23 03:03 magicleo

这个我也没什么好的思路了

Mar 30 '23 07:03 daodao97

@daodao97 感谢回复，空白字符还比较好处理，但是很多乱码字符我不知道怎么处理。

①②等字符识别出来会变成其它的中文字：

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

会不会缺少相应的字体库引起乱码的？

Aug 31 '23 13:08 hujb2000