albert_pytorch icon indicating copy to clipboard operation
albert_pytorch copied to clipboard

在自己的数据集上继续fineturning

Open woyijkl1 opened this issue 6 years ago • 11 comments

请问怎么在自己的数据集上继续fineturning

woyijkl1 avatar Nov 01 '19 09:11 woyijkl1

@woyijkl1 finetuning 语言模型吗?先prepare_lm_data_ngram.py生成数据,然后加载模型进行run_pretraining.py,在214行:

    if args.model_path:
        model = AlbertForPreTraining.from_pretrained(args.model_path)

具体的你直接看代码,以根据你自己的数据进行简单调整下就行了

lonePatient avatar Nov 01 '19 09:11 lonePatient

就是需要加载已经训练好的模型(可以下载的那个),然后再用这个模型继续在task 数据集下训练语言模型

woyijkl1 avatar Nov 02 '19 07:11 woyijkl1

@woyijkl1 我也在做类似的任务,可以给个邮箱联系你吗

jiangjiaqi6 avatar Jan 31 '20 10:01 jiangjiaqi6

@jiangjiaqi6 It seems we are having similar tasks, can I have your email or wechat?

RainFZY avatar Feb 01 '20 13:02 RainFZY

@woyijkl1 wechat:jjq1301725162

jiangjiaqi6 avatar Feb 01 '20 23:02 jiangjiaqi6

如果我要将albert应用到QA任务中,那么我该如何finetune?

您好~按照我理解,我载入预训练参数到albert后,不冻结任何参数,然后直接E2E地supervise train这个任务?

ChineseYjh avatar Mar 18 '20 04:03 ChineseYjh

@ChineseYjh 类似BERT的用法, 你只需要把模型文件替换下,加载对应的预训练模型即可.

lonePatient avatar Mar 18 '20 04:03 lonePatient

thx~

ChineseYjh avatar Mar 18 '20 07:03 ChineseYjh

Hi everybody,

I was wondering how the corpus file (the big one to be split) is expected to be? Is there a rule about how long each line should be (an entire document or part of it)? I have documents of about a couple of pages long.

oltip avatar May 14 '20 09:05 oltip

@woyijkl1 finetuning 语言模型吗?先prepare_lm_data_ngram.py生成数据,然后加载模型进行run_pretraining.py,在214行:

    if args.model_path:
        model = AlbertForPreTraining.from_pretrained(args.model_path)

具体的你直接看代码,以根据你自己的数据进行简单调整下就行了

想自己去做albert的预训练。 我应该需要怎样的数据格式,然后运行prepare_lm_data_ngram.py????将大量文章按句子切分 然后,进行mask, 进而送入预训练???可否提供一些样例数据??

shawroad avatar Jul 23 '20 09:07 shawroad

就是需要加载已经训练好的模型(可以下载的那个),然后再用这个模型继续在task 数据集下训练语言模型

请问做了这部分工作吗?效果如何?谢谢

lsx0930 avatar Apr 23 '22 10:04 lsx0930