BERT-NER-Pytorch icon indicating copy to clipboard operation
BERT-NER-Pytorch copied to clipboard

自定义数据集训练的话, 是不是只需要把数据集做成cluener的样子,放在dataset/cluener文件就可以了,需不需要为自己的数据集重写processor?

Open LXXiaogege opened this issue 1 year ago • 4 comments

LXXiaogege avatar Sep 08 '23 08:09 LXXiaogege

请问你用自定义的训练集训练成功了吗,我也是不知道怎么自己训练其他的数据集

chasingdream9 avatar Nov 28 '23 13:11 chasingdream9

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

jhy354 avatar Dec 02 '23 11:12 jhy354

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

如果我的标签有所增加删减的话,在processor中需要添加我增加/删除的标签吗?

Violettttee avatar Dec 29 '23 17:12 Violettttee

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

如果我的标签有所增加删减的话,在processor中需要添加我增加/删除的标签吗?

是的, 如果不想改其实可以偷懒, 直接文本替换掉就行了 比如你用不到NAME, 那就把所有O-NAME B-NAME替换成你要的标签就行

jhy354 avatar Dec 31 '23 13:12 jhy354