Ziqing Yang

airaria.github.io [email protected]

Shanghai What I cannot create, I do not understand

Results 212 comments of


                                            Ziqing Yang

关于预训练脚本

> 请教一下，目前的预训练脚本，我看是通过text模式加载的通用中文语料，是因为只做中文化的原因么？ > 利用脚本加载什么语言的语言都可以。既然是为了给LLaMA增加中文能力，所以预训练时当然用中文语料。 > 那我要是想做领域问答的lora模型，是不是不能用text，要把语料处理成instruction，input，output分栏模式，再用json或者csv去load？用datasets可以load json格式，datasets.load_dataset中指定json格式即可。不过加载后还需你自己处理一下指令数据格式

关于预训练脚本

> 第一个问题，我是想问为什么Chinese-LLaMA-Alpaca训练用的语料并没有按问答形式组织？是不是因为只做中文化，所以问答逻辑不重要？预训练数据用的是自由格式的文本，不需要按问答形式组织。只有SFT的数据需要按问答形式组织。 > 第二个关于JSON这个也是想问语料的准备，我是想问是不是如果我想做领域问答，是不是就不能按Chinese-LLaMA-Alpaca的逻辑喂通用语料，而应该严格按问答形式准备，以便生成模型具备更好的问答能力？逻辑同上，做问答应该严格按问答形式准备。

合并完以后, 推理都有问题? 原始模型推理怎没有问题

推理时添加--with_prompt: ``` python inference_hf.py --base_model=merge_llama/ --interactive --with_prompt ```

chinese-alpaca-lora-plus-7b精调后无法合并模型

因为并不清楚是怎么再次微调的，所以无法给出具体建议。不过你可以先试一下根据提示信息把285行给注释掉再合并，看看合并出的模型效果是否正常。

chinese-alpaca-lora-plus-7b精调后无法合并模型

> 我是将chinese-alpaca-lora-plus-7b合并成hf模型之后，利用alpaca的代码进行的微调。结束后生成了adapter.json和adapter.bin。我将上述两个文件替换掉chinese-alpaca-lora-plus-7b中的同名文件。 > 我也试了在合并的时候将chinese-alpaca-lora-plus-7b的hf版本作为basemodel，将微调生成的文件作为lora model，还是一样的问题。微调用的也是LoRA吗，可否发一下LoRA训练的配置？

chinese-alpaca-lora-plus-7b精调后无法合并模型

> 微调用的是合并后的plus版本的hf模型，不是lora 那微调存下来的不应该是全量模型吗？不需要合并了。

关于alpaca回答惜字如金的问题

是否尝试过了Plus模型？我们新发布的Alpaca-Plus 7B模型缓解了部分问题

Support multi-gpu transformers inference

Is it possible to use one script for both single-gpu and multi-gpu inference (for instance, users can launch the script with `--single-gpu` (default) or `--multi-gpu`) ? so that we only...

作者您好，请问llama7b-plus的llama用的是哪个版本的transformers转化的？

> > 我们尝试过不同的transformers版本转换llama权重，最终得到的chinese-llama(alpaca)并没有影响，您可以直接使用最新的transformers版本 > > 感谢回复。还有另外一个问题，我转化了你们的模型以后，使用类似vicuna的方式进行sft，但发现loss的值以及下降速度明显慢于原版的llama，不知你们是否有类似的发现？可能造成这种现象的原因，能提供一些hint么？是指在中文任务上吗，可否提供一下具体数值？

作者您好，请问llama7b-plus的llama用的是哪个版本的transformers转化的？

这是不同的tokenizer导致的。在中文上，原版LLaMA tokenizer分词后的长度相对Chinese-LLaMA更长；这会导致，在原版LLaMA和Chinese-LLaMA对同一句输入的整句预测概率相同的情况下，原版LLaMA分到每个token上的loss更低，因此训练时看起来loss更低。是输入不同导致的问题，而且并不是完全可比的，不必过于担心。

‹
1
2
...
11
12
13
14
15
16
17
...
21
22
›