Fengshenbang-LM [效果复现问题]Base roberta 模型 + vit-16b + wukong dataset 复现coco-cn结果不足

[效果复现问题]Base roberta 模型 + vit-16b + wukong dataset 复现coco-cn结果不足

Open randomtutu opened this issue 2 years ago • 2 comments

hi，各位作者好

我在zhihu看到了项目的简介，以及放出的榜单，很感兴趣。

这几天我正在尝试复现这个工作，但是我在base 模型下，coco-cn的评估数据结果和目前公布的数据还有较大的差距，后续会放出训练的细节吗？

我可以先说一下我的训练细节：我是用moco + 对比学习，adam优化器，初始学习率e-4，学习率warm_up + polydecay，4 * 8 a100 多机训练，bs256，大约训练了80w步，目前coco-cn只能到80+。

Aug 31 '22 12:08 randomtutu

知乎的介绍是：https://zhuanlan.zhihu.com/p/546245070

Aug 31 '22 12:08 randomtutu

hi，各位作者好

我在zhihu看到了项目的简介，以及放出的榜单，很感兴趣。

这几天我正在尝试复现这个工作，但是我在base 模型下，coco-cn的评估数据结果和目前公布的数据还有较大的差距，后续会放出训练的细节吗？

我可以先说一下我的训练细节：我是用moco + 对比学习，adam优化器，初始学习率e-4，学习率warm_up + polydecay，4 * 8 a100 多机训练，bs256，大约训练了80w步，目前coco-cn只能到80+。

我这边没有用MOCO，就是直接的原版的对比学习。base版，learning rate 是5e-4（当然，大点模型的版本lr要小十倍）。bs为512，2*8 a100训练。warmup和cosince decay（感觉这个问题不大）。大概训练24个epoch能收敛。我是基于open_clip这个库训的，你可以参考一下~

Sep 02 '22 05:09 Weifeng-Chen

Fengshenbang-LM Fengshenbang-LM copied to clipboard

[效果复现问题]Base roberta 模型 + vit-16b + wukong dataset 复现coco-cn结果不足

Fengshenbang-LM
Fengshenbang-LM copied to clipboard