LLaMA-Factory icon indicating copy to clipboard operation
LLaMA-Factory copied to clipboard

您好,请问下,一个纯文本的txt文档来做预训练的话,dataset_info.json该如何添加这个新数据集?我需要将这个txt的内容转换成这种格式吗[ {"text": "document"}, {"text": "document"} ]?如果我不想转,就是想使用一个书本txt做预训练该如何做

Open cheun726 opened this issue 7 months ago • 1 comments

Reminder

  • [X] I have read the README and searched the existing issues.

System Info

x

Reproduction

"my_demo": { "file_name": "天龙八部.txt", "columns": { "prompt": "text" } } 我这个天龙八部.txt里面是没有将其内容按照 {"text": "document"}这种格式处理的,就是纯文本。我想问下,直接这样直接使用纯文本做预训练可以吗

Expected behavior

No response

Others

No response

cheun726 avatar Jul 19 '24 14:07 cheun726