MiniCPM
MiniCPM copied to clipboard
[Bad Case]: 无法复现模型结构缩放的最优学习率一致性实验
Description / 描述
错误结果:无法复现基于minicpm模型结构进行缩放,得到不同尺寸下的最优学习率一致性结果
Case Explaination / 案例解释
作者您好,minicpm是一个非常棒的工作。我在minicpm开源的模型结构基础上进行基于模型的尺寸缩放实验,但是并不能复现博客中的如下图最优学习率一致性的结论
在技术报告中看到了模型整体的缩放参数,在代码中基本都找到了缩放的位置,但是没找到参数初始化和learning rate部分,请问这部分是如何实现的呢?非常感谢您的回复。
在代码中看到是正常的初始化方式