MiniCPM
MiniCPM copied to clipboard
持续预训练阶段的数据配比
您好,能否问一下你们在持续预训练的退火阶段,使用的预训练数据是否和前面稳定训练的数据一致?是否有加入或减少部分预训练数据呢?另外,关于退火阶段预训练数据和sft数据的配比问题,是否有更多的实验?感谢!