pren
pren copied to clipboard
关于学习率对齐
你好,我在复现论文时候,使用你的权重转到我复现的代码上可以达到你表述的精度,但是当我从头训练时候,始终差2-3个点精度,我在想是不是我学习率和batchsize设置的问题,论文中你的初始学习率是0.5,batchsize是128,请问一下这个是单卡的设置还是多卡的设置结果。
实验都是单卡跑的。我自己用不同随机种子跑的时候,会有零点几到一个点的波动,不过应该不会到2-3个点。
如果是单卡v100的话,跑一次实验大概需要5.3天,感觉做一次实验要很久
怎么训练两个数据集啊?是不是训练好一个数据集后,把continue_train改成true,在训练另一个数据集,这样做时出现了递归深度超标。怎么解决啊