phi3-Chinese icon indicating copy to clipboard operation
phi3-Chinese copied to clipboard

SFT 170K的数据都是中文的?

Open gaojing8500 opened this issue 1 year ago • 2 comments
trafficstars

能提供170K的SFT数据 还是采用开源SFT组合而成

gaojing8500 avatar Apr 24 '24 06:04 gaojing8500

组合了一些我们之前用过的数据,你可以在这里下载到聚合文件:https://modelscope.cn/datasets/baicai003/Llama3-Chinese-dataset/summary

CrazyBoyM avatar Apr 24 '24 06:04 CrazyBoyM

都是开源的,包括我们自己之前的志愿开源爱好组织 (https://huggingface.co/shareAI )开源的,但是要进行挑选和配比、过滤等

CrazyBoyM avatar Apr 24 '24 06:04 CrazyBoyM