Chinese-Mistral
Chinese-Mistral copied to clipboard
数据集相关
请问能告知所有使用的中文推理数据集吗?在预训练国臣中,推理部分的数据占比大吗?
以及,Chinese-Mistral-7B-v0.1是扩充MistralAI/Mistral-7B-v0.1这个版本的吗?
预训练过程中,使用的数据是从如下中文语料库中采样的: baike2018qa WanJuan Ape210K BAAI-COIG
推理部分的占比不是很大,但是我认为添加更多的推理数据非常有利于增强模型的性能。
是扩充的MistralAI/Mistral-7B-v0.1。