Chinese-Mistral icon indicating copy to clipboard operation
Chinese-Mistral copied to clipboard

数据集相关

Open yxy-kunling opened this issue 1 year ago • 2 comments

请问能告知所有使用的中文推理数据集吗?在预训练国臣中,推理部分的数据占比大吗?

yxy-kunling avatar Dec 30 '24 08:12 yxy-kunling

以及,Chinese-Mistral-7B-v0.1是扩充MistralAI/Mistral-7B-v0.1这个版本的吗?

yxy-kunling avatar Dec 30 '24 08:12 yxy-kunling

预训练过程中,使用的数据是从如下中文语料库中采样的: baike2018qa WanJuan Ape210K BAAI-COIG

推理部分的占比不是很大,但是我认为添加更多的推理数据非常有利于增强模型的性能。

是扩充的MistralAI/Mistral-7B-v0.1。

THUchenzhou avatar Feb 25 '25 02:02 THUchenzhou