ConSERT
ConSERT copied to clipboard
其他中文数据集的微调
请问如何基于当前提供的接口对其他中文数据集进行bert的微调?
- 首先在
data/chinese/{DATASET_NAME}
目录下准备好需要微调的中文数据集({DATASET_NAME}
为自定义的数据集名字),目录需要包含三个文件:train.tsv
,dev.tsv
,test.tsv
,文件中的每一行表示一个样本,构成都应该是{sentence1}\t{sentence2}\t{label}
的格式,表示两句话和人工标注的分数(int或float类型)。对于训练集,因为是无监督的设置,并不会利用文本的配对和标签信息,所以可以随意将无监督语料配对,以及随意给一个label分数(加载中文数据的代码详见data_util.py中的load_chinese_tsv_data
); - 然后可以参考
scripts/chinese
下的脚本进行训练,需要将--chinese_dataset
参数修改成对应的{DATASET_NAME}
,此外代码中的一些assert语句需要手动修改,加入对应的{DATASET_NAME}
。