W2NER 长文本，大数据集的config调整思路咨询

长文本，大数据集的config调整思路咨询

Open VillardX opened this issue 2 years ago • 4 comments

作者您好，我的自用数据集是长文本，每个样本的文本长度大概是2000字，且只包含flat的实体。大概有2000条数据，共计约2万个实体标记，实体类别为9类，原生的bert-base-chinese只支持max_len=512，所以我对自己的文本数据进行了max_len=500的截断，并使用resume_zh.json的设置参数进行训练，仅修改了batch_size=4(不然爆显存)，但是最终效果f1=0.75，甚至比BERT+CRF的baseline都低。想向您请教一下，是哪里的参数设置出问题了呢，请给个指导思路，不胜感激，谢谢~

Nov 14 '22 16:11 VillardX

W2NER W2NER copied to clipboard

长文本，大数据集的config调整思路咨询

W2NER
W2NER copied to clipboard