Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard

Published 20 hours ago •

Reame
Issues

关于使用hf run_clm对llama进行预训练的疑问

Open ZeyuTeng96 opened this issue 1 year ago • 20 comments

问前必查项目

[x ] 由于相关依赖频繁更新，请确保按照Wiki中的相关步骤执行
[x ] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案
[x ] 第三方插件问题：例如llama.cpp、text-generation-webui、LlamaChat等，同时建议到对应的项目中查找解决方案

选择问题类型

基础模型：

[x ] LLaMA

问题类型：

[x ] 其他问题

详细描述问题

大佬好，我这里也想使用hf的run_clm对llama模型进行继续预训练。其中，预训练的无标注文本为.txt的文件，每行都是一个文本或者一个自然段。

但是，run_clm的脚本里会在把每行的文本做tokenize后，进行一个group_text的操作，默认至1024的长度。这样会导致，每行的文本如果不够1024的长度的话，会把下一行的文本和当前的文本进行一个拼接，是这么理解吗？

如果按照这种拼接方式，是不是不太合理啊？我如果每行都是独立的文本，我并不需要根据上一个文本的结束来预测新的文本的开头，这样的预训练是不是不太合理？

还是说我的.txt文件准备错误了，不应该这么准备数据呢？

Apr 20 '23 03:04 ZeyuTeng96