MiniCPM-V
MiniCPM-V copied to clipboard
模型不支持中文?还有批量跑多个图片预测时会缓存前面的结果?
遍历图片时总是复制前面的输出,是因为跑多个图片预测时会缓存前面的输出结果? 而单独对每个图片进行推断,中文ocr效果又很差。是不支持中文ocr识别吗
请问提供使用的模型名称,图像,以及promot MiniCPM-V 2.0具备较好的中英文OCR能力,MiniCPM-V 1.0及OmniLMM-12B OCR能力较弱
模型:MiniCPM-V 2.0 prompt:请提取图片中的所有文字 图像(遍历文件夹的图片进行预测): Processing image: MiniCPM-V-2/assets/minicpmv-2-peformance2.png Image: minicpmv-2-peformance2.png 图片显示了一个带有文本的圆形图表,通常用于比较不同数据集或指标。图中包含各种符号和颜色来代表不同的测量结果值或者类别标签(如数值、百分比)。每个圆环都表示一个特定的评估标准或被测对象的不同方面,例如算法性能或其他相关属性。 在左上角有一个小矩形的图例说明各部分的意义和使用方法。 Processing image: MiniCPM-V-2/assets/minicpmv2-cases_2.png Image: minicpmv2-cases_2.png 图片中的文本似乎是关于一个圆形图表的说明。这个表格通常用于比较不同的数据集或指标,其中每个圆环代表一种特定类型的测量结果或者类别标签(如数值、百分比)。 Processing image: MiniCPM-V-2/assets/0.png Image: 0.png 图片中的文字提供了关于圆形图表的详细信息,包括图例说明和可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/2.jpg Image: 2.jpg 图片中的文字提供了关于圆形图表的详细说明,包括图例以及可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/image3.jpg Image: image3.jpg 图片中的文字提供了关于圆形图表的详细说明,包括图例和可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/station.gif Image: station.gif 图片中的文字提供了关于圆形图表的详细说明,包括图例以及可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/image0.jpg Image: image0.jpg 图片中的文字提供了关于圆形图表的详细说明,包括图例和可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/minicpmv-2-benchmark.png Image: minicpmv-2-benchmark.png 图片中的文字提供了关于圆形图表的详细说明,包括图例以及可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/image4.jpg Image: image4.jpg 图片中的文字提供了关于圆形图表的详细说明,包括图例和可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/london_car.gif Image: london_car.gif 图片中的文字提供了关于圆形图表的详细说明,包括图例以及可能的数据表示方法。 Processing image: MiniCPM-V-2/assets/image.jpg Image: image.jpg 图片中的文字提供了关于圆形图表的详细说明,包括图例和可能的数据表示方法。
但是单独预测是正常的,只是ocr识别差,常常遗漏
抱歉,模型代码中有个bug导致调用chat后input msgs会被修改,现已修复,请拉取最新文件modeling_minicpmv.py。
关于中文OCR,目前全文输出能力确实有所不足,提取局部信息能力还不错,文字信息提取任务推荐使用beam search解码(sampling=False)
res, context, _ = model.chat(
image=image,
msgs=msgs,
context=None,
tokenizer=tokenizer,
sampling=False
)
print(res)
好奇问下beam search解码的原理或原因是什么, sampling=False后是用的什么解码策略哈?因为按照你的建议的确变好了:)最后,期待你们的微调代码出来。
sampling=False具体实现见https://huggingface.co/openbmb/MiniCPM-V-2/blob/main/modeling_minicpmv.py#L336-L352
微调代码已经放出,请关注本repo首页更新日志~