PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[Question]: 关系抽取任务中,如何转换数据为UIE模型输入数据格式

Open hurun opened this issue 3 years ago • 0 comments

请提出你的问题

提问之前,已完成以下行动: 1、百度谷歌未找到相关参考资料或脚本 2、官网文档提供的uie输入格式为doccano标注平台导出,业务数据未使用doccanno平台进行标注 3、已在历史issue通过doccanno、uie数据等关键词搜索,未找到解决方法。比较相似的提问为以下issue,但不是同一个类型且未提供相应脚本。https://github.com/PaddlePaddle/PaddleNLP/issues/2301

想使用自己的数据对uie进行微调,官方文档给的数据微调样例是docano标注导出的格式,尝试自行写脚本,但受限于doccano文档及多个id无法理解问题,未成功。想请教下普通标注的格式,如何进行转换为uie模型的输入格式,以下是真实业务场景数据及标注结果,还请指点一下。 每一行是json格式: 第一行 {"ID": "001", "sentence": "9号汽车故障报告综合情况:运行中发动机温度突然过高:故障判定:真故障。", "spo": [{"head": {"name": "发动机", "position": [16, 19]}, "tail": {"name": "温度突然过高", "position": [19, 25]}, "relation": "部件故障"}]} 

第二行 {"ID": "002", "sentence": "诊断过程先观察中控锁控制单元线路,是否有线路断开,没发现有断开,查看电路图,发现车身和门子连接处有连接插头,拔下其插头,发现有腐蚀现象,用清洗剂清洗之后,发现连接插头已经腐蚀断开,经过清洗之后,用接线工具箱中的插头及工具进行接线,插入插头,进行试验,左前门各项功能恢复,最后用黄油涂抹插头,安装密封圈并涂抹密封胶,以防漏水,最后用5051清除故障码,故障消失。", "spo": [{"head": {"name": "连接插头", "position": [49, 53]}, "tail": {"name": "腐蚀", "position": [63, 65]}, "relation": "部件故障"}, {"head": {"name": "连接插头", "position": [79, 83]}, "tail": {"name": "腐蚀断开", "position": [85, 89]}, "relation": "部件故障"}]}

hurun avatar Sep 21 '22 15:09 hurun