Ziqing Yang
Ziqing Yang
指令需要放在模版里, 见 #156
我们刚提供了预训练代码,欢迎参考。
合并后的权重就和普通llama没什么区别了
original_llama_7b_hf中的模型是原版llama?它的词表大小应该不是49954,所以无法加载。 可参考本项目中的[scripts/inference_hf.py](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/inference_hf.py)
> @airaria 哦哦,那我可能明白了,original_llama_7b_hf 是原版 llama 模型 的 hf 格式,而 LoRA 是你们提供的中文 Alpaca LoRA. > > 这样的话,我猜可能是扩充了原版 llama 词库原因,LoRA 对应了是扩充之后的 llama 模型,而我这里指定的是原版 所以如果你用自己的代码加载原版llama的话,需要先resize一下model的embedding大小至49954(alpaca),然后合并Lora,并使用chinese-alpaca的tokenizer,这样应该就正常了
如果用inference_hf.py推理,那么“几乎没有上下文记忆”正常,因为inference_hf.py本身的目的只是为了让大家快速体验使用,其中每次提问和回答都是独立的,并没有实现多轮对话能力的相关逻辑。 建议使用llama.cpp体验多轮对话。
> I found that it will be slow if first load. But for me, it will finish within minutes. Or you can check if your cuda environment works as normal....
You can use any public Chinese corpus (Chinese Wiki, WudaoCorpus, etc.) or for training the tokenizer. The detailed usages and the instructions for training a SentencePiece tokenizer can be found...
删掉所有的数据缓存再试试
> 试了一下, 如果用deepspeed, 不能用stage 3, 否则后续会带来这个问题. > 另外我还想问一下, txt格式, 如果我有多篇没有关联的文章, 有两种处理方式: 每篇文章一个txt, 以及把文章都合并成一个大的txt. > 哪种方式更合理, 还是其实没有关系? 感谢反馈。 这两种没有区别,模型每次读取的文本长度由block_size决定;训练数据会以block_size切割成多个样本,而训练时都会做shuffle的,不同样本之间训练顺序不固定。