albert_pytorch 在自己的数据集上继续fineturning

请问怎么在自己的数据集上继续fineturning

Nov 01 '19 09:11 woyijkl1

@woyijkl1 finetuning 语言模型吗？先prepare_lm_data_ngram.py生成数据，然后加载模型进行run_pretraining.py，在214行：

    if args.model_path:
        model = AlbertForPreTraining.from_pretrained(args.model_path)

具体的你直接看代码，以根据你自己的数据进行简单调整下就行了

Nov 01 '19 09:11 lonePatient

就是需要加载已经训练好的模型（可以下载的那个），然后再用这个模型继续在task 数据集下训练语言模型

Nov 02 '19 07:11 woyijkl1

@woyijkl1 我也在做类似的任务，可以给个邮箱联系你吗

Jan 31 '20 10:01 jiangjiaqi6

@jiangjiaqi6 It seems we are having similar tasks, can I have your email or wechat?

Feb 01 '20 13:02 RainFZY

@woyijkl1 wechat：jjq1301725162

Feb 01 '20 23:02 jiangjiaqi6

如果我要将albert应用到QA任务中，那么我该如何finetune？

您好~按照我理解，我载入预训练参数到albert后，不冻结任何参数，然后直接E2E地supervise train这个任务？

Mar 18 '20 04:03 ChineseYjh

@ChineseYjh 类似BERT的用法，你只需要把模型文件替换下，加载对应的预训练模型即可.

Mar 18 '20 04:03 lonePatient

thx~

Mar 18 '20 07:03 ChineseYjh

Hi everybody,

I was wondering how the corpus file (the big one to be split) is expected to be? Is there a rule about how long each line should be (an entire document or part of it)? I have documents of about a couple of pages long.

May 14 '20 09:05 oltip

@woyijkl1 finetuning 语言模型吗？先prepare_lm_data_ngram.py生成数据，然后加载模型进行run_pretraining.py，在214行：
    if args.model_path:
        model = AlbertForPreTraining.from_pretrained(args.model_path)
具体的你直接看代码，以根据你自己的数据进行简单调整下就行了

想自己去做albert的预训练。我应该需要怎样的数据格式，然后运行prepare_lm_data_ngram.py？？？？将大量文章按句子切分然后，进行mask, 进而送入预训练？？？可否提供一些样例数据？？

Jul 23 '20 09:07 shawroad

就是需要加载已经训练好的模型（可以下载的那个），然后再用这个模型继续在task 数据集下训练语言模型

请问做了这部分工作吗？效果如何？谢谢

Apr 23 '22 10:04 lsx0930

albert_pytorch albert_pytorch copied to clipboard

在自己的数据集上继续fineturning

如果我要将albert应用到QA任务中，那么我该如何finetune？

albert_pytorch
albert_pytorch copied to clipboard