FlagAI
FlagAI copied to clipboard
请问aquila模型预训练中使用了什么数据呢
Aquila预训练使用了Pile,RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等
Aquila预训练使用了Pile,RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等
get!请问这是都用全了吗,还是做了大量清洗。因此看起来 这似乎用了大量语料,那为什么introduction说“更小的数据集,获得比其它开源模型更优的性能”,这个是怎么比较的呢
预训练数据会做清洗。数据分布更多细节后面会放出来。谢谢关注。