Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard
关于使用hf run_clm对llama进行预训练的疑问
问前必查项目
- [x ] 由于相关依赖频繁更新,请确保按照Wiki中的相关步骤执行
- [x ] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案
- [x ] 第三方插件问题:例如llama.cpp、text-generation-webui、LlamaChat等,同时建议到对应的项目中查找解决方案
选择问题类型
基础模型:
- [x ] LLaMA
问题类型:
- [x ] 其他问题
详细描述问题
大佬好,我这里也想使用hf的run_clm对llama模型进行继续预训练。其中,预训练的无标注文本为.txt的文件,每行都是一个文本或者一个自然段。
但是,run_clm的脚本里会在把每行的文本做tokenize后,进行一个group_text的操作,默认至1024的长度。这样会导致,每行的文本如果不够1024的长度的话,会把下一行的文本和当前的文本进行一个拼接,是这么理解吗?
如果按照这种拼接方式,是不是不太合理啊?我如果每行都是独立的文本,我并不需要根据上一个文本的结束来预测新的文本的开头,这样的预训练是不是不太合理?
还是说我的.txt文件准备错误了,不应该这么准备数据呢?