W2NER icon indicating copy to clipboard operation
W2NER copied to clipboard

长文本,大数据集的config调整思路咨询

Open VillardX opened this issue 2 years ago • 4 comments

作者您好,我的自用数据集是长文本,每个样本的文本长度大概是2000字,且只包含flat的实体。大概有2000条数据,共计约2万个实体标记,实体类别为9类,原生的bert-base-chinese只支持max_len=512,所以我对自己的文本数据进行了max_len=500的截断,并使用resume_zh.json的设置参数进行训练,仅修改了batch_size=4(不然爆显存),但是最终效果f1=0.75,甚至比BERT+CRF的baseline都低。想向您请教一下,是哪里的参数设置出问题了呢,请给个指导思路,不胜感激,谢谢~

VillardX avatar Nov 14 '22 16:11 VillardX