Ziqing Yang
Ziqing Yang
> 请教一下,目前的预训练脚本,我看是通过text模式加载的通用中文语料,是因为只做中文化的原因么? > 利用脚本加载什么语言的语言都可以。既然是为了给LLaMA增加中文能力,所以预训练时当然用中文语料。 > 那我要是想做领域问答的lora模型,是不是不能用text,要把语料处理成instruction,input,output分栏模式,再用json或者csv去load? 用datasets可以load json格式,datasets.load_dataset中指定json格式即可。不过加载后还需你自己处理一下指令数据格式
> 第一个问题,我是想问为什么Chinese-LLaMA-Alpaca训练用的语料并没有按问答形式组织?是不是因为只做中文化,所以问答逻辑不重要? 预训练数据用的是自由格式的文本,不需要按问答形式组织。只有SFT的数据需要按问答形式组织。 > 第二个关于JSON这个也是想问语料的准备,我是想问是不是如果我想做领域问答,是不是就不能按Chinese-LLaMA-Alpaca的逻辑喂通用语料,而应该严格按问答形式准备,以便生成模型具备更好的问答能力? 逻辑同上,做问答应该严格按问答形式准备。
推理时添加--with_prompt: ``` python inference_hf.py --base_model=merge_llama/ --interactive --with_prompt ```
因为并不清楚是怎么再次微调的,所以无法给出具体建议。 不过你可以先试一下根据提示信息把285行给注释掉再合并,看看合并出的模型效果是否正常。
> 我是将chinese-alpaca-lora-plus-7b合并成hf模型之后,利用alpaca的代码进行的微调。结束后生成了adapter.json和adapter.bin。我将上述两个文件替换掉chinese-alpaca-lora-plus-7b中的同名文件。 > 我也试了在合并的时候将chinese-alpaca-lora-plus-7b的hf版本作为basemodel,将微调生成的文件作为lora model,还是一样的问题。 微调用的也是LoRA吗,可否发一下LoRA训练的配置?
> 微调用的是合并后的plus版本的hf模型,不是lora 那微调存下来的不应该是全量模型吗?不需要合并了。
是否尝试过了Plus模型?我们新发布的Alpaca-Plus 7B模型缓解了部分问题
Is it possible to use one script for both single-gpu and multi-gpu inference (for instance, users can launch the script with `--single-gpu` (default) or `--multi-gpu`) ? so that we only...
> > 我们尝试过不同的transformers版本转换llama权重,最终得到的chinese-llama(alpaca)并没有影响,您可以直接使用最新的transformers版本 > > 感谢回复。还有另外一个问题,我转化了你们的模型以后,使用类似vicuna的方式进行sft,但发现loss的值以及下降速度明显慢于原版的llama,不知你们是否有类似的发现?可能造成这种现象的原因,能提供一些hint么? 是指在中文任务上吗,可否提供一下具体数值?
这是不同的tokenizer导致的。在中文上,原版LLaMA tokenizer分词后的长度相对Chinese-LLaMA更长; 这会导致,在原版LLaMA和Chinese-LLaMA对同一句输入的整句预测概率相同的情况下,原版LLaMA分到每个token上的loss更低,因此训练时看起来loss更低。 是输入不同导致的问题,而且并不是完全可比的,不必过于担心。