LLaMA-Factory
LLaMA-Factory copied to clipboard
您好,请问下,一个纯文本的txt文档来做预训练的话,dataset_info.json该如何添加这个新数据集?我需要将这个txt的内容转换成这种格式吗[ {"text": "document"}, {"text": "document"} ]?如果我不想转,就是想使用一个书本txt做预训练该如何做
Reminder
- [X] I have read the README and searched the existing issues.
System Info
x
Reproduction
"my_demo": { "file_name": "天龙八部.txt", "columns": { "prompt": "text" } } 我这个天龙八部.txt里面是没有将其内容按照 {"text": "document"}这种格式处理的,就是纯文本。我想问下,直接这样直接使用纯文本做预训练可以吗
Expected behavior
No response
Others
No response