UER-py
UER-py copied to clipboard
请问一般BERT预训练的acc_mlm大概训练完后能到多少
在enWiki数据(另外我们是从头开始训练的,数据量是从enwiki抽了378万个句子对,dup_factor设置为了5)上训练20w个steps,Batch size是32,Scheduler是linear+warmup,acc_mlm大概在0.5左右,这是正常现象吗?是否有Log文件可以参考,非常感谢!

这是我训的12-768 的 BERT-base的曲线
参数为: 8卡*bsz64 warmup 0.1 lr 5e-5 step 1M
从上图看,20w的话,我这8卡是59,考虑到bsz的差异,我觉得0.5是差不多的。
好的好的,非常感谢您的回复!