minimind
minimind copied to clipboard
一个r1复现方案的建议
我之前参考过您的项目作为deepseekmini的复现基础 值得肯定的是小参数的语言模型确实由于数据量的问题可能很难学习推理能力 但是如何确定最小推理学习参数边界是我所打算探讨的事情 huggingface项目slm指出即使超过最佳的数据与模型参数配比,模型的性能仍然在提升 换句话说,现在的模型普遍处于参数稀疏的性价比边界。 您的项目中预训练的数据过少,而sft的数据过多,对于教学或者达到一个比较好的聊天交流体验来说,确实很适合。 但是也是由于这样的原因,像这样的模型更难实现极小参数最大性能的配比,也更难走上强化学习的方向。 目前的最小验证比是1.5b模型参数同样可以学习推理能力,参考DeepScaleR-1.5B-Preview。 我目前正在做这方面的实验,但是就一些发现来说,在一些消融实验上qwen0.5b指令模型注重于刷榜而损失了性能,这也是qwen系列的通病,这可能是大多数人实验失败的原因,即使是qwen基座模型同样备受质疑。 如果想要实现一个极小参数的r1zero,不妨直接提高预训练语料比例,长退火之后直接rl吧。