minimind
minimind copied to clipboard
数据增强(TinyStories)+自我安利
你好!我也在玩自己训练小模型,参考了很多你的代码。 对于玩小模型来说,最有意思的部分就是数据集的构建和取舍。
我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.
可以做到
- 无须sft即可获得初步的问答能力和常识记忆能力
- 虽然pretrain只有0.5G tokens, 但是过了7-8个epoch之后才有过拟合开始变笨(失去泛化能力)的迹象
不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下