InternVL
InternVL copied to clipboard
证照提取需求。当数据出现换行时,容易出现数据提取不全的状况
例如:提取《食品运营许可证》字段 “经营者名称”,预期提取: 西安群晟餐饮管理有限责任公司丰隆路分公司 ; 实际提取: 西安群晟餐饮管理有限责任公司丰隆
实际上漏提取:路分公司
你让他必须以“公司”结尾呢; 这个用普通的OCR即可,需要用这么大模型么?
要求大模型以“公司”或者“分公司”等结尾,会有一些提升,但是提升有限,仍然会有一些漏提取的问题。不用ocr原因是想测试多模态的能力。
现在存在的问题是 换行之后的部分会漏识别,后续计划通过增加数据来解决。