Results 6 issues of Hanlard

您好,在github上看到了您的albert_zh项目,我在工程中也在使用您开源的albert_zh预训练代码。 我尝试在您训练的albert_small基础之上,使用金融语料预训练albert_small。 碰到问题: 在10万金融语料上训练后,即使再增加数,模型精度也不再提升,损失也不再下降。 当使用原先的学习率(0.000176)会发散,学习率我已经降低到1e-5和1e-6,但是学习效果仍然止步不前。 我看到您分享的训练数据: albert_base训练精度可以达到79.1和99.0 但是我训练的albert_small效果如下: 训练精度只有57和68,感觉和albet_base差距太大了。 1)您是否可以分享一下,albert_small训练的效果? 2)对于提升预训练效果您是否可以分享一些经验?

您好,我尝试在您训练的albert_small基础之上,使用金融语料预训练albert_small。 碰到问题: 在10万金融语料上训练后,即使再增加数,模型精度也不再提升,损失也不再下降。 当使用原先的学习率(0.000176)会发散,学习率我已经降低到1e-5和1e-6,但是学习效果仍然止步不前。 我训练的albert_small效果如下: 训练精度只有57和68。 1)您是否可以分享一下,albert_small训练的效果? 2)对于提升预训练效果您是否可以分享一些经验?

x是[batch_size,SEQ_LEN,768]的bert表达 有一句代码: for i in range(batch_size): x[i] = torch.index_select(x[i], 0, head_indexes_2d[i]) 请问这是在做什么?

在预训练主程序里有一段,求多个GPU的平均值,这里没平均g_loss和d_loss后面会报错 if args.n_gpu > 1: loss = loss.mean() # mean() to average on multi-gpu. g_loss = g_loss.mean() d_loss = d_loss.mean()

我在预处理那个文件里看到了NSP任务,我记得论文里还想没有提到NSP

训练了很多epoch,开发集精度只有63 看了论文原文,并没有提到这部分的训练效果,请问作者也是这样吗? 我感觉这个低了后续任务肯定受影响的 Dev Accuracy: 0.6357314148681055 411 17 40001 2049/2372 86% 0.003043 431 18 42001 1677/2372 71% 0.003203 451 19 44001 1305/2372 55% 0.002822 471 20 46001 933/2372 39% 0.003007...