MiniCPM icon indicating copy to clipboard operation
MiniCPM copied to clipboard

[Bad Case]: 无法复现模型结构缩放的最优学习率一致性实验

Open xiaofengShi opened this issue 1 year ago • 0 comments

Description / 描述

错误结果:无法复现基于minicpm模型结构进行缩放,得到不同尺寸下的最优学习率一致性结果

Case Explaination / 案例解释

作者您好,minicpm是一个非常棒的工作。我在minicpm开源的模型结构基础上进行基于模型的尺寸缩放实验,但是并不能复现博客中的如下图最优学习率一致性的结论 image 在技术报告中看到了模型整体的缩放参数,在代码中基本都找到了缩放的位置,但是没找到参数初始化和learning rate部分,请问这部分是如何实现的呢?非常感谢您的回复。 image 在代码中看到是正常的初始化方式 image

xiaofengShi avatar Jul 30 '24 07:07 xiaofengShi