gpt_academic icon indicating copy to clipboard operation
gpt_academic copied to clipboard

为插件“批量翻译PDF文档(NOUGAT)”添加图片匹配功能(高级参数开启)

Open Menghuan1918 opened this issue 1 year ago • 0 comments

通过高级参数可以尝试让程序对NOUGAT OCR后的结果匹配图片到文章中,对pdf图片周围的文本块与NOUGAT识别后的文本进行模糊匹配进行定位,将图片以md形式加回文章中。效果如下:

  • 单列文章:

2

  • 双列文章:

屏幕截图_20240311_234314

  • 非学术文章:

屏幕截图_20240311_231059

缺点:

  • 一些模型会把图片参数吃了(即英文原文有图像参数,但翻译版本没有),例如GPT-3.5-turbo (甚至glm-3表现都比它表现好一点) ,提示词需要改进

  • 对于一些pdf的图片识别效果并不是很好

  • NOUGAT识别的结果有问题导致图片位置不对

Menghuan1918 avatar Mar 11 '24 16:03 Menghuan1918