Cornucopia-LLaMA-Fin-Chinese
Cornucopia-LLaMA-Fin-Chinese copied to clipboard
请教下数据集规模
非常感谢您很有意义的工作,想请教一下所使用到的instruction-tuning的数据量。 另外,想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢? 非常感谢
之前的是QA数据集,大约12M。 「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好,一般一种类型2W+ 即可。
请问12M是disk size,还是instruction数量?