gpt_academic
gpt_academic copied to clipboard
为插件“批量翻译PDF文档(NOUGAT)”添加图片匹配功能(高级参数开启)
通过高级参数可以尝试让程序对NOUGAT OCR后的结果匹配图片到文章中,对pdf图片周围的文本块与NOUGAT识别后的文本进行模糊匹配进行定位,将图片以md形式加回文章中。效果如下:
- 单列文章:
- 双列文章:
- 非学术文章:
缺点:
-
一些模型会把图片参数吃了(即英文原文有图像参数,但翻译版本没有),例如GPT-3.5-turbo (甚至glm-3表现都比它表现好一点) ,提示词需要改进
-
对于一些pdf的图片识别效果并不是很好
-
NOUGAT识别的结果有问题导致图片位置不对