Zhong Hui
Zhong Hui
你好文本的长度大概多少?`结尾部分文字没有抽取出来` 这个指的是 ` '合同结束时间': [{'text': '无相应实体'}], '合同编号': [{'text': '无相应实体'}],` 吗?
大概明白你的意思的。应该主要是你的数据 Label的长度非常长,PP-UIE训练的数据的标签相对较短,导致的原因。您这边标注的数据量有多大? 这边建议您,1、换用PP-UIE 7B 更大的模型有更好的泛化性。对长度的微调改变会更容易。2、在0.5B的基础上,继续添加训练数据。
> 还有我想问一下大佬,假如标注的数据文本,比如合同结款条款有很多条连续的文字,比如第十二条这个大段落里面有很多小条如12.1,12.2,12.3等的合同条款,我是应该直接把这一大段都标注上合同结款标签,还是每一条都标注上合同结款标签. 我建议标记短一点,这样可能准确率会高一些。
需要合入的话,可以 @ 我
好的,等一会儿 CI 吧,有个 Conflicting 可以处理一下
你试试把 model 修改为路径 `'./PP-UIE-0.5B'`
你好 这个PR尝试修复了一些问题,你可以尝试安装 paddlenlp=3.0.0b4 试试 https://github.com/PaddlePaddle/PaddleNLP/pull/9822
你好,pr需要更新合入吗?