UER-py
UER-py copied to clipboard
关于Quantitative evaluation的训练步骤问题
您好,感谢您在预训练模型框架方面的探索研究,对于我们当前的业务有一定指导意义。 在这里有几个个问题想请教一下您:
- 在Quantitative evaluation的stage1中写道“We train with batch size of 256 sequences and each sequence contains 256 tokens. We load Google's pretrained models and train upon it for 500,000 steps. The learning rate is 2e-5 and other optimizer settings are identical with Google BERT. BERT tokenizer is used.”这个步骤是用特定领域的语料,从零开始重新训练bert模型,还是加载google在wiki上面预训练好的bert然后再去训练? 2.在步骤2和步骤3分别用于下游任务训练和微调的数据集要一样吗?还是说训练的数据集要远大于微调的数据集?因为我看在book_review的那个分类的demo里面,微调的train+dev+test就是对应的训练的book_review.txt数据集 期待您的回复
- 大多数情形,我们会利用已有的预训练模型做增量预训练,而不是从零开始预训练
- 在book_review分类那个例子里面,我们直接用这个数据集本身做了增量预训练。增量预训练的语料最好和下游任务相关。如果语料大,效果会很好。但是即使语料不够大(比如就是下游任务本身),也能起到一定的提升