minimind icon indicating copy to clipboard operation
minimind copied to clipboard

数据增强(TinyStories)+自我安利

Open fangzhangmnm opened this issue 8 months ago • 3 comments

你好!我也在玩自己训练小模型,参考了很多你的代码。 对于玩小模型来说,最有意思的部分就是数据集的构建和取舍。

我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.

可以做到

  1. 无须sft即可获得初步的问答能力和常识记忆能力
  2. 虽然pretrain只有0.5G tokens, 但是过了7-8个epoch之后才有过拟合开始变笨(失去泛化能力)的迹象

不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下

fangzhangmnm avatar Feb 11 '25 18:02 fangzhangmnm