FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

请问aquila模型预训练中使用了什么数据呢

Open qwjaskzxl opened this issue 1 year ago • 3 comments

qwjaskzxl avatar Jun 12 '23 05:06 qwjaskzxl

Aquila预训练使用了Pile,RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等

ftgreat avatar Jun 12 '23 05:06 ftgreat

Aquila预训练使用了Pile,RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等

get!请问这是都用全了吗,还是做了大量清洗。因此看起来 这似乎用了大量语料,那为什么introduction说“更小的数据集,获得比其它开源模型更优的性能”,这个是怎么比较的呢

qwjaskzxl avatar Jun 12 '23 06:06 qwjaskzxl

预训练数据会做清洗。数据分布更多细节后面会放出来。谢谢关注。

ftgreat avatar Jun 12 '23 10:06 ftgreat