Hanlard

https://www.zhihu.com/people/zhang-han-32-13-81

Results 6 issues of


                                            Hanlard

ALBERT-small训练效果问题

1

comment

您好，在github上看到了您的albert_zh项目，我在工程中也在使用您开源的albert_zh预训练代码。我尝试在您训练的albert_small基础之上，使用金融语料预训练albert_small。碰到问题：在10万金融语料上训练后，即使再增加数，模型精度也不再提升，损失也不再下降。当使用原先的学习率（0.000176）会发散，学习率我已经降低到1e-5和1e-6，但是学习效果仍然止步不前。我看到您分享的训练数据： albert_base训练精度可以达到79.1和99.0 但是我训练的albert_small效果如下：训练精度只有57和68，感觉和albet_base差距太大了。 1）您是否可以分享一下，albert_small训练的效果？ 2）对于提升预训练效果您是否可以分享一些经验？

ALBERT-small训练效果问题

您好，我尝试在您训练的albert_small基础之上，使用金融语料预训练albert_small。碰到问题：在10万金融语料上训练后，即使再增加数，模型精度也不再提升，损失也不再下降。当使用原先的学习率（0.000176）会发散，学习率我已经降低到1e-5和1e-6，但是学习效果仍然止步不前。我训练的albert_small效果如下：训练精度只有57和68。 1）您是否可以分享一下，albert_small训练的效果？ 2）对于提升预训练效果您是否可以分享一些经验？

head_indexes_2d是干什么用的

2

comment

x是[batch_size，SEQ_LEN，768]的bert表达有一句代码： for i in range(batch_size): x[i] = torch.index_select(x[i], 0, head_indexes_2d[i]) 请问这是在做什么？

发现了一个多GPU训练的小BUG

1

comment

在预训练主程序里有一段，求多个GPU的平均值，这里没平均g_loss和d_loss后面会报错 if args.n_gpu > 1: loss = loss.mean() # mean() to average on multi-gpu. g_loss = g_loss.mean() d_loss = d_loss.mean()

请问你这个Electra是有加NSP任务吗？

3

comment

我在预处理那个文件里看到了NSP任务，我记得论文里还想没有提到NSP

train_entity.py 头实体表示学习模型训练精度只有63

26

comment

训练了很多epoch，开发集精度只有63 看了论文原文，并没有提到这部分的训练效果，请问作者也是这样吗？我感觉这个低了后续任务肯定受影响的 Dev Accuracy: 0.6357314148681055 411 17 40001 2049/2372 86% 0.003043 431 18 42001 1677/2372 71% 0.003203 451 19 44001 1305/2372 55% 0.002822 471 20 46001 933/2372 39% 0.003007...