FlagAI 请问aquila模型预训练中使用了什么数据呢

请问aquila模型预训练中使用了什么数据呢

Open qwjaskzxl opened this issue 1 year ago • 3 comments

Jun 12 '23 05:06 qwjaskzxl

Aquila预训练使用了Pile，RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等

Jun 12 '23 05:06 ftgreat

Aquila预训练使用了Pile，RedPajama-Data-1T, Wikipedia, C4, 悟道中文数据集、电子书、专利、百科、论坛, github数据等

get！请问这是都用全了吗，还是做了大量清洗。因此看起来这似乎用了大量语料，那为什么introduction说“更小的数据集，获得比其它开源模型更优的性能”，这个是怎么比较的呢

Jun 12 '23 06:06 qwjaskzxl

预训练数据会做清洗。数据分布更多细节后面会放出来。谢谢关注。

Jun 12 '23 10:06 ftgreat