Chinese-LLaMA-Alpaca icon indicating copy to clipboard operation
Chinese-LLaMA-Alpaca copied to clipboard

关于使用hf run_clm对llama进行预训练的疑问

Open ZeyuTeng96 opened this issue 1 year ago • 20 comments

问前必查项目

  • [x ] 由于相关依赖频繁更新,请确保按照Wiki中的相关步骤执行
  • [x ] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案
  • [x ] 第三方插件问题:例如llama.cpptext-generation-webuiLlamaChat等,同时建议到对应的项目中查找解决方案

选择问题类型

基础模型:

  • [x ] LLaMA

问题类型:

  • [x ] 其他问题

详细描述问题

大佬好,我这里也想使用hf的run_clm对llama模型进行继续预训练。其中,预训练的无标注文本为.txt的文件,每行都是一个文本或者一个自然段。

但是,run_clm的脚本里会在把每行的文本做tokenize后,进行一个group_text的操作,默认至1024的长度。这样会导致,每行的文本如果不够1024的长度的话,会把下一行的文本和当前的文本进行一个拼接,是这么理解吗?

如果按照这种拼接方式,是不是不太合理啊?我如果每行都是独立的文本,我并不需要根据上一个文本的结束来预测新的文本的开头,这样的预训练是不是不太合理?

还是说我的.txt文件准备错误了,不应该这么准备数据呢?

ZeyuTeng96 avatar Apr 20 '23 03:04 ZeyuTeng96