Ziqing Yang
Ziqing Yang
>  > llama+lora同样在胡言乱语,请问如何评判模型的准确度和效果呢? 问答使用alpaca,不要用llama
> @ymcui 目前是还没有开源从原版直接预训练的中文 llama 吗,因为只看到了有LoRA的下载链接 我们暂时只有利用LoRA预训练的权重,没有全量参数中文预训练的模型。
> @airaria  > > 所以目前这两部的训练都是训练中文的 LoRA 模型吗,没有修改原来 llama 权重 > > 但是你们不是说在原版的 llama 的基础上扩充了中文的词库进行了训练的吗 扩充和训练后的embedding和lm head的权重也包括在发布的lora权重里了,所以lora权重才会那么大(~800M)
是不是tokenizer.model忘复制了?
> > 是不是tokenizer.model忘复制了? > > 复制了,不复制合并不成 在运行llama.cpp时也要提供tokenizer,需要把tokenizer拷贝到相应文件夹 ``` llama.cpp/zh-models/ - 7B/ - consolidated.00.pth - params.json - tokenizer.model
请提供一下脚本启动参数?
inference_hf.py暂不支持从lora权重加载alpaca-plus模型进行推理, 如要使用inference_hf.py进行alpaca-plus进的推理,建议先合并模型,流程如下: 1. 使用merge_llama_with_chinese_lora.py合并lora,生成完整的hf格式模型权重: ```bash python merge_llama_with_chinese_lora.py \ --base_model path_to_hf_llama \ --lora_model path_to_chinese_llama_plus_lora,path_to_chinese_alpaca_plus_lora \ --output_type huggingface \ --output_dir path_to_merged_chinese_alpaca_plus ``` 2. 使用inference_hf.py加载合并后的模型进行推理: ```bash python inference_hf.py \ --base_model path_to_merged_chinese_alpaca_plus \ --with_prompt...
generate的参数用`temperature=0.7, top_p=0.95, do_sample=True, num_beams=1, eos_token_id = tokenizer.eos_token_id`试试?
> > @shuiiiiiimu 好的,谢谢,我发现按照generate的参数用temperature=0.7, top_p=0.95, do_sample=True, num_beams=1, eos_token_id = tokenizer.eos_token_id,还是只有 > > 我按照上述的参数设置之后,就能生成了。但是多跑几次之后。生成空白的次数居多(就是,同样的参数,重复跑,有时候有内容输出,有时候没有)。 不知道为啥。 可以参考scripts/inference_hf.py里的prompt模板。我们测试发现用那个效果会好一些。
我们之前尝试用add_token方法来扩张词汇表发现会切分出许多多余的空格; 如果你没有出现此问题,可以尝试继续用add_token方法扩张词汇表,理论上对训练embedding没有影响