LLaMA-Pro icon indicating copy to clipboard operation
LLaMA-Pro copied to clipboard

利用finetune_cosmopedia.sh脚本进行继续预训练中的数据集如何构建

Open RuipingWang1986 opened this issue 1 year ago • 2 comments
trafficstars

您好,目前我正在用finetune_cosmopedia.sh进行继续预训练,用HuggingFaceTB上的数据集可以实现继续预训练,但是我目前想要使用自己的数据集,我的数据集格式是txt,我想知道有没有办法将我们自己的数据转变成可以用于继续预训练的方法,或者有没有类似的工具呢,谢谢。

RuipingWang1986 avatar May 20 '24 08:05 RuipingWang1986

您可以参考huggingface dataset的官方文档读入txt文件:https://huggingface.co/docs/datasets/nlp_load

hills-code avatar May 20 '24 08:05 hills-code

好的,我先试试看,感谢回复

RuipingWang1986 avatar May 20 '24 08:05 RuipingWang1986