HugNLP icon indicating copy to clipboard operation
HugNLP copied to clipboard

无法找到知识增强预训练的数据

Open nuoma opened this issue 1 year ago • 2 comments

你好,我无法找到文件: data_path=/wjn/nlp_task_datasets/kg-pre-trained-corpus/total_pretrain_kgicl_gpt,感觉看的有点模糊,麻烦指个路,谢谢!

nuoma avatar May 09 '23 02:05 nuoma

您好,这个数据对应的工作还在投中,所以暂未开源。数据格式本质上和gpt的训练语料一样。

wjn1996 avatar May 09 '23 09:05 wjn1996

是指预训练阶段的语料(wudao,pile),一堆txt文件,每个文件里每行就是一句话这种吗?

nuoma avatar May 13 '23 08:05 nuoma