ConSERT icon indicating copy to clipboard operation
ConSERT copied to clipboard

其他中文数据集的微调

Open yuanXuX opened this issue 3 years ago • 1 comments

请问如何基于当前提供的接口对其他中文数据集进行bert的微调?

yuanXuX avatar Jul 02 '21 07:07 yuanXuX

  1. 首先在data/chinese/{DATASET_NAME}目录下准备好需要微调的中文数据集({DATASET_NAME}为自定义的数据集名字),目录需要包含三个文件:train.tsv, dev.tsv, test.tsv,文件中的每一行表示一个样本,构成都应该是{sentence1}\t{sentence2}\t{label}的格式,表示两句话和人工标注的分数(int或float类型)。对于训练集,因为是无监督的设置,并不会利用文本的配对和标签信息,所以可以随意将无监督语料配对,以及随意给一个label分数(加载中文数据的代码详见data_util.py中的load_chinese_tsv_data);
  2. 然后可以参考scripts/chinese下的脚本进行训练,需要将--chinese_dataset参数修改成对应的{DATASET_NAME},此外代码中的一些assert语句需要手动修改,加入对应的{DATASET_NAME}

yym6472 avatar Jul 07 '21 03:07 yym6472