Cornucopia-LLaMA-Fin-Chinese icon indicating copy to clipboard operation
Cornucopia-LLaMA-Fin-Chinese copied to clipboard

请教下数据集规模

Open TZWwww opened this issue 1 year ago • 2 comments

非常感谢您很有意义的工作,想请教一下所使用到的instruction-tuning的数据量。 另外,想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢? 非常感谢

TZWwww avatar Jul 20 '23 22:07 TZWwww

之前的是QA数据集,大约12M。 「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好,一般一种类型2W+ 即可。

jerry1993-tech avatar Aug 02 '23 08:08 jerry1993-tech

请问12M是disk size,还是instruction数量?

luxinglong avatar Sep 15 '23 05:09 luxinglong