ConSERT
ConSERT copied to clipboard

Published 20 hours ago •

Reame
Issues

其他中文数据集的微调

Open yuanXuX opened this issue 3 years ago • 1 comments

请问如何基于当前提供的接口对其他中文数据集进行bert的微调？

Jul 02 '21 07:07 yuanXuX

首先在data/chinese/{DATASET_NAME}目录下准备好需要微调的中文数据集（{DATASET_NAME}为自定义的数据集名字），目录需要包含三个文件：train.tsv, dev.tsv, test.tsv，文件中的每一行表示一个样本，构成都应该是{sentence1}\t{sentence2}\t{label}的格式，表示两句话和人工标注的分数（int或float类型）。对于训练集，因为是无监督的设置，并不会利用文本的配对和标签信息，所以可以随意将无监督语料配对，以及随意给一个label分数（加载中文数据的代码详见data_util.py中的load_chinese_tsv_data）；
然后可以参考scripts/chinese下的脚本进行训练，需要将--chinese_dataset参数修改成对应的{DATASET_NAME}，此外代码中的一些assert语句需要手动修改，加入对应的{DATASET_NAME}。

Jul 07 '21 03:07 yym6472