InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

证照提取需求。当数据出现换行时,容易出现数据提取不全的状况

Open ccp8123 opened this issue 1 year ago • 2 comments

例如:提取《食品运营许可证》字段 “经营者名称”,预期提取: 西安群晟餐饮管理有限责任公司丰隆路分公司 ; 实际提取: 西安群晟餐饮管理有限责任公司丰隆 0213 Uploading screenshot-20240523-093438.png…

ccp8123 avatar May 23 '24 01:05 ccp8123

screenshot-20240523-093438 实际上漏提取:路分公司

ccp8123 avatar May 23 '24 01:05 ccp8123

你让他必须以“公司”结尾呢; 这个用普通的OCR即可,需要用这么大模型么?

zengjie617789 avatar May 24 '24 08:05 zengjie617789

要求大模型以“公司”或者“分公司”等结尾,会有一些提升,但是提升有限,仍然会有一些漏提取的问题。不用ocr原因是想测试多模态的能力。

ccp8123 avatar May 30 '24 08:05 ccp8123

现在存在的问题是 换行之后的部分会漏识别,后续计划通过增加数据来解决。

czczup avatar May 30 '24 13:05 czczup