Andy AO
Andy AO
提供的文件以及两种不同的思路做出来的html,word 排版明显出现了失误,可读性下降 [share.zip](https://github.com/immersive-translate/immersive-translate/files/10461711/share.zip)
> 天呐... 这效果也太好了吧。。。 abbyy 有api什么的可以调用吗.. 应该有吧,印象中他们官方网站上有服务,可以部署在服务器上,很多国内软件的OCR解决方案都是它提供的(例如,福昕),做出来的效果相当惊艳,新的版本还加入了机器学习。不过作为商业软件可能不会免费提供这些东西,这是最大的问题。
> 他们这个pdf转 html是OCR转的吗? > > 你的这个例子中的。 并不是OCR!它会智能识别里面到底是图片还是文本,文本的话,就直接提取,图片的话就OCR,所以支持混合的PDF。
> 他们这个pdf转 html是OCR转的吗? > > 你的这个例子中的。 
> 也许应该换个方向,寻找类似的库。 > > 而不是像现在这样,使用pdf.js 这个库,这个库旨在渲染和原pdf一模一样的html。 > > 要是找到能在前端这样用的库就好了。 > > 这个体验太棒了。 绝对定位排出来的那个东西,实在不适合后期加工处理,直接看倒是还不错。如果能转成普通的html,那么就根本不用费心了,直接按照原来的方式翻译就可以。
还有个工具也相当厉害,是免费试用的在线工具,pdf to docx,效果相当棒,感觉 word 的格式和 html 很近了,经常用来转换成 docx 然后再导出 html,来翻译电子书,效果真是好。我只用来处理电子书,论文一般在本地就行了。 https://www.ilovepdf.com/pdf_to_word 「以令人难以置信的准确性将您的 PDF 转换为 WORD 文档」这个是名副其实的,很多排版非常复杂的书转换出来之后,跟PDF基本上没有任何区别,这个就挺令人惊奇的。
> 书签是目录吗? 是的,自带的目录
这个 issue 自己关闭了,显示是我关闭的。收到邮件后我感到很奇怪,明明我记得没关(因为没解决)。今天看到重开了,想起来这个事情。
该需求已经实现
> 确定吗... > > (好像没加呀...  上传文件了, [破除成功学的迷信 Barking Up the Wrong Tree The Surprising Science Behind Why Everything You Know About Success Is (Mostly) Wrong 2017.epub.zip](https://github.com/immersive-translate/immersive-translate/files/11778019/Barking.Up.the.Wrong.Tree.The.Surprising.Science.Behind.Why.Everything.You.Know.About.Success.Is.Mostly.Wrong.2017.epub.zip) 你检查检查 [破除成功学的迷信 Barking...