albert_pytorch
albert_pytorch copied to clipboard
在自己的数据集上继续fineturning
请问怎么在自己的数据集上继续fineturning
@woyijkl1 finetuning 语言模型吗?先prepare_lm_data_ngram.py生成数据,然后加载模型进行run_pretraining.py,在214行:
if args.model_path:
model = AlbertForPreTraining.from_pretrained(args.model_path)
具体的你直接看代码,以根据你自己的数据进行简单调整下就行了
就是需要加载已经训练好的模型(可以下载的那个),然后再用这个模型继续在task 数据集下训练语言模型
@woyijkl1 我也在做类似的任务,可以给个邮箱联系你吗
@jiangjiaqi6 It seems we are having similar tasks, can I have your email or wechat?
@woyijkl1 wechat:jjq1301725162
如果我要将albert应用到QA任务中,那么我该如何finetune?
您好~按照我理解,我载入预训练参数到albert后,不冻结任何参数,然后直接E2E地supervise train这个任务?
@ChineseYjh 类似BERT的用法, 你只需要把模型文件替换下,加载对应的预训练模型即可.
thx~
Hi everybody,
I was wondering how the corpus file (the big one to be split) is expected to be? Is there a rule about how long each line should be (an entire document or part of it)? I have documents of about a couple of pages long.
@woyijkl1 finetuning 语言模型吗?先prepare_lm_data_ngram.py生成数据,然后加载模型进行run_pretraining.py,在214行:
if args.model_path: model = AlbertForPreTraining.from_pretrained(args.model_path)具体的你直接看代码,以根据你自己的数据进行简单调整下就行了
想自己去做albert的预训练。 我应该需要怎样的数据格式,然后运行prepare_lm_data_ngram.py????将大量文章按句子切分 然后,进行mask, 进而送入预训练???可否提供一些样例数据??
就是需要加载已经训练好的模型(可以下载的那个),然后再用这个模型继续在task 数据集下训练语言模型
请问做了这部分工作吗?效果如何?谢谢