PaddleNLP
PaddleNLP copied to clipboard
[Bug]: ERNIE-LayoutX 按照示例程序运行demo 报错: IndexError: list index out of range
软件环境
- paddlepaddle:
- paddlepaddle-gpu: 2.3.0.post112
- paddlenlp: 2.4.0
- paddleocr: 2.6.0.2
重复问题
- [X] I have searched the existing issues
错误描述
dev 分支:
bug原因分析: paddleocr 识别的结果赋值有误
文件: paddlenlp/taskflow/document_intelligence.py 106
example["ocr_result"] = ocr_result
改成
example["ocr_result"] = ocr_result[0]
修改后 示例运行无误,结果正确
稳定复现步骤 & 代码
>>> from pprint import pprint
>>> from paddlenlp import Taskflow
>>> docprompt = Taskflow("document_intelligence")
>>> docprompt([{"doc": "./resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}])
[{'prompt': '五百丁本次想要担任的是什么职位?',
'result': [{'end': 183, 'prob': 1.0, 'start': 180, 'value': '客户经理'}]},
{'prompt': '五百丁是在哪里上的大学?',
'result': [{'end': 38, 'prob': 1.0, 'start': 32, 'value': '广州五百丁学院'}]},
{'prompt': '大学学的是什么专业?',
'result': [{'end': 45, 'prob': 0.74, 'start': 39, 'value': '金融学(本科)'}]}]

修改后: bug原因分析: paddleocr 识别的结果赋值有误 文件: paddlenlp/taskflow/document_intelligence.py 第 106 行 ocr结果取值有些问题
example["ocr_result"] = ocr_result
改成
example["ocr_result"] = ocr_result[0]
修改后 示例运行无误,结果正确


感谢反馈~paddleocr 新版本(>=2.6.0.2)对输出格式做了更新,我们修复下这个问题
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
@linjieccc 请问哪个版本修复了这个问题?