Fengshenbang-LM icon indicating copy to clipboard operation
Fengshenbang-LM copied to clipboard

[效果复现问题]Base roberta 模型 + vit-16b + wukong dataset 复现coco-cn结果不足

Open randomtutu opened this issue 2 years ago • 2 comments

hi,各位作者好

我在zhihu看到了项目的简介,以及放出的榜单,很感兴趣。

这几天我正在尝试复现这个工作,但是我在base 模型下,coco-cn的评估数据结果和目前公布的数据还有较大的差距,后续会放出训练的细节吗?

我可以先说一下我的训练细节:我是用moco + 对比学习,adam优化器,初始学习率e-4,学习率warm_up + polydecay,4 * 8 a100 多机训练,bs256,大约训练了80w步,目前coco-cn只能到80+。

randomtutu avatar Aug 31 '22 12:08 randomtutu

知乎的介绍是:https://zhuanlan.zhihu.com/p/546245070

randomtutu avatar Aug 31 '22 12:08 randomtutu

hi,各位作者好

我在zhihu看到了项目的简介,以及放出的榜单,很感兴趣。

这几天我正在尝试复现这个工作,但是我在base 模型下,coco-cn的评估数据结果和目前公布的数据还有较大的差距,后续会放出训练的细节吗?

我可以先说一下我的训练细节:我是用moco + 对比学习,adam优化器,初始学习率e-4,学习率warm_up + polydecay,4 * 8 a100 多机训练,bs256,大约训练了80w步,目前coco-cn只能到80+。

我这边没有用MOCO,就是直接的原版的对比学习。base版,learning rate 是5e-4(当然,大点模型的版本lr要小十倍)。bs为512,2*8 a100训练。warmup和cosince decay(感觉这个问题不大)。大概训练24个epoch能收敛。我是基于open_clip这个库训的,你可以参考一下~

Weifeng-Chen avatar Sep 02 '22 05:09 Weifeng-Chen