phi3-Chinese
phi3-Chinese copied to clipboard
SFT 170K的数据都是中文的?
trafficstars
能提供170K的SFT数据 还是采用开源SFT组合而成
组合了一些我们之前用过的数据,你可以在这里下载到聚合文件:https://modelscope.cn/datasets/baicai003/Llama3-Chinese-dataset/summary
都是开源的,包括我们自己之前的志愿开源爱好组织 (https://huggingface.co/shareAI )开源的,但是要进行挑选和配比、过滤等