PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

uie的base模型和nano模型 结果输出结构会有差异

Open mingo-doer opened this issue 2 years ago • 1 comments

软件环境

- paddlepaddle:2.3.4
- paddlepaddle-gpu: 2.3.1
- paddlenlp: 2.3.4

重复问题

  • [X] I have searched the existing issues

错误描述

uie的base模型和nano模型 结果输出结构都会有差异
在观点分析中
测试用例
schema = {'评价维度': ['观点词', '情感倾向[正向,负向]']}
texts = ['买给老爸的,抢不到mate40,加价太多了。黑色,金边,这颜色最适合男性,黑亮背面,边框也是乌黑,浑然一体,不像白色和金色,边框是亮银色。p50更像是p30的升级放大版,和p40不像,和p30很像,很漂亮,手感也好,镜头突出不多。拍照自拍都不错,图片编辑里居然多了小米的涂抹消除功能,非常好。真不错真漂亮,之前看到有人说摄像头不好看,哪里不好看啦!试了拍照功能,自拍比苹果的好看多了?自带美颜。整机比我的苹果11要轻很多,屏幕比11大,我下一部也要换华为!从P10开始家人就一直华为的忠粉。喜欢直屏,所以等待P50。鸿蒙系统给力,支持华为。京东物流太赞了,外地调货,凌晨到北京,十点就收到货了。没有充电头,数据线也没有,只能用老的了。膜已贴好,还有软壳,还是挺贴心的。使用手感舒适,系统操作流畅,一如即往的选择华为,支持国货,充分体验强大的科技成果是一种美妙绝伦的感觉!']

nano结果:
[{'评价维度': [{'text': '物流', 'start': 272, 'end': 274, 'probability': 0.31816332047639406, 'relations': {'观点词': [{'text': '赞', 'start': 275, 'end': 276, 'probability': 0.9617211002210624}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9971398925107948}]}}, {'text': '镜头', 'start': 108, 'end': 110, 'probability': 0.3653783948863776, 'relations': {'观点词': [{'text': '不多', 'start': 112, 'end': 114, 'probability': 0.8128309107217291}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9874560741484935}]}}, {'text': '自拍都不错,图片编辑里居然多了小米的涂抹消除功能,非常好。真不错真漂亮,之前看到有人说摄像头不好看,哪里不好看啦!试了拍照功能,自拍比苹果的好看多了?自带美颜。整机比我的苹果11要轻很多,屏幕', 'start': 117, 'end': 213, 'probability': 0.3629341638574637}, {'text': '手感', 'start': 103, 'end': 105, 'probability': 0.8424754638841847, 'relations': {'观点词': [{'text': '好', 'start': 106, 'end': 107, 'probability': 0.4268193481605067}, {'text': '舒适', 'start': 338, 'end': 340, 'probability': 0.42000726171846026}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.997272266502307}]}}]}]

缺失relations字段,输出格式不固定的话  不好解析

base 结果:

[{'评价维度': [{'text': '系统', 'start': 260, 'end': 262, 'probability': 0.40780190872501976, 'relations': {'观点词': [{'text': '流畅', 'start': 345, 'end': 347, 'probability': 0.40692694274151364}, {'text': '给力', 'start': 262, 'end': 264, 'probability': 0.8634844741184757}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9990105085202075}]}}, {'text': '自拍', 'start': 117, 'end': 119, 'probability': 0.30679681017929283, 'relations': {'观点词': [{'text': '不错', 'start': 120, 'end': 122, 'probability': 0.8739527756724499}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9993610210610768}]}}, {'text': '手感', 'start': 103, 'end': 105, 'probability': 0.8560884019442128, 'relations': {'观点词': [{'text': '好', 'start': 106, 'end': 107, 'probability': 0.5581009671925372}, {'text': '舒适', 'start': 338, 'end': 340, 'probability': 0.5427722021559802}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9992083088161152}]}}, {'text': '摄像头', 'start': 160, 'end': 163, 'probability': 0.3416025706755832, 'relations': {'观点词': [{'text': '不好看', 'start': 163, 'end': 166, 'probability': 0.5190085281233436}], '情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9870823263909436}]}}]}]

输出格式是正常的

稳定复现步骤 & 代码

uie中的 taskflow模式

schema = {'评价维度': ['观点词', '情感倾向[正向,负向]']} ie = Taskflow('information_extraction', schema=schema) ie.set_schema(schema)

mingo-doer avatar Oct 20 '22 02:10 mingo-doer

因为输出结果是通过输出概率控制的,不同的模型输出概率不一样,所以会有这个问题 真正上线的时候UIE需要微调的方式来使概率置信

wawltor avatar Oct 20 '22 03:10 wawltor

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Dec 20 '22 00:12 github-actions[bot]

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。

github-actions[bot] avatar Jan 04 '23 00:01 github-actions[bot]