Ziqing Yang
Ziqing Yang
> @airaria 重新生成同样的报错 参考iMountTai的建议 > 关注一下内存的变化,可能是内存不足
建议使用deepspeed,可以参考我们最新的[预训练提交脚本](https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/预训练脚本)
[参考wiki](https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/指令精调脚本#训练后文件整理)
新建一个文件夹,把`pytorch_model.bin`放进去并改名`adapter_model.bin`,并补齐tokenizer相关和config相关文件,使得文件夹内容与我们发布的如Chinese-LLaMA-LoRA-7b一致。大致流程如下: ```bash mkdir lora_model cp pytorch_model.bin lora_model/adapter_model.bin cp Chinese-LLaMA-LoRA-7b/adapter_config.json lora_model/ cp Chinese-LLaMA-LoRA-7b/*token* lora_model/ ``` 其中你需要修改`adapter_config.json`中的LoRA参数,以和你训练时用的参数保持一致。 之后就可以用merge_llama_with_chinese_lora.py合并了 我们之后会在wiki中更新相关流程说明。
可能因为存下来是float32格式。你可以载入并check一下各个参数的dtype看看是不是float32
用llama.cpp是否也存在此类问题?还是只有用gradio_demo时才有此问题?
第四步的命令贴一下? lora文件夹中是否放入了alpaca-tokenizer?
量化后的模型没法通过transformers加载,只能用llama.cpp 如果想通过python调用,可以尝试类似llama-cpp-python之类的接口
你好,我们这里是假设用户已经把text2vec-large-chinese下载到了本地 不过感谢提醒,我们会在文档中明确说明。