Linjie Chen comments

Results 92 comments of


                                            Linjie Chen

trafficstars

UIE实体识别评价指标的计算公式

debug模式是对每个正例类别分别进行评估，该模式仅用于模型调试，和整体的评估方式不一样的地方是少了对负例进行评估 https://github.com/PaddlePaddle/PaddleNLP/blob/03dcbeff745fb18f230c5bc07a2e3c0d23b8617a/model_zoo/uie/evaluate.py#L66-L68 可以排查下是否您的训练集缺少负例数据（result_list为空）导致模型出现错误召回

UIE实体识别评价指标的计算公式

负例用于让模型学习抽取结果为空的能力，如果数据集只有正例数据会造成错误召回；如果负例数据太多，可能造成模型不召回。您可以通过`negative_ratio`控制下正负例的比例，对比下最后得出的模型精度

关于UIE fintune 之后效果不如zero-shot的问题

@wireless911 您好，能否提供下AI Studio的项目地址并设置为公开

关于UIE fintune 之后效果不如zero-shot的问题

似乎没有数据转换和训练部分的代码，请问您的训练/验证集是通过doccano.py进行构造的么

关于UIE fintune 之后效果不如zero-shot的问题

请问目前训练集正负样本的比例是多少，从预测结果来看错误召回比较多，可以适当增加负样本的比例

UIE预训练流程

如果不同NER任务的标签体系不冲突的话基本影响不大，可以混合训练

UIE事件抽取数据格式疑问

方便提供下这份数据不同字段的说明么，从这条数据来看应该少了论元（argument）和论元角色（role）的信息

UIE事件抽取数据格式疑问

了解，上例中的论元角色是`主体`、`客体`、`时间`和`地点`，论元是`英国首相约翰逊`和`新冠病毒测试`，可以转为如下格式与doccano的标注导出格式对齐： ```text { "id": 7285, "text": "约翰逊（图：BBC）星岛环球网消息：【海外网4月6日|战疫全时区】据英国天空新闻网5日报道，英国首相约翰逊住院接受新冠病毒测试，10天前即3月27日他在社交媒体上发文称，自己新冠病毒检测结果呈阳性，正在自我隔离", "relations": [ { "id": 0, "from_id": 2, "to_id": 0, "type": "主体" }, { "id": 1, "from_id": 2, "to_id": 1, "type": "客体" } ],...

事件抽取是否支持句子内存在多个事件类型，以及一个论元角色存在多个论元的场景

UIE支持对句子中包含多个事件类型（触发词不同）和论元角色有多个论元的事件抽取

使用UIE进行事件抽取的训练数据格式的要求是什么，可否给个例子说明一下

您好，事件抽取的数据格式可以参考这个例子 ```text { "id": 39, "text": "泰安今早发生2.9级地震！靠近这个国家森林公园。", "relations": [ { "id": 23, "from_id": 58, "to_id": 57, "type": "震级" }, { "id": 24, "from_id": 58, "to_id": 56, "type": "时间" } ],...