minimind 数据增强(TinyStories)+自我安利

数据增强(TinyStories)+自我安利

Open fangzhangmnm opened this issue 8 months ago • 3 comments

你好！我也在玩自己训练小模型，参考了很多你的代码。对于玩小模型来说，最有意思的部分就是数据集的构建和取舍。

我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.

可以做到

不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下

Feb 11 '25 18:02 fangzhangmnm