Facico

Results 234 comments of Facico

The params.json is created by [merge_lora.py#163](https://github.com/Facico/Chinese-Vicuna/blob/master/tools/merge_lora.py#L163). If your settings are correct, this file will be generated properly. You can check it carefully.

@GreatWildFire 这应该是你CUDA的问题,上面显示的是没有使用GPU,你可以试试上面兄弟的命令安装一下CUDA,你可以参考[这个issue](https://github.com/Facico/Chinese-Vicuna/issues/42),是windows+wsl来跑这个项目的相关问题

@yanxp 我们在最新的requirement.txt中的固定的某个commit hash的版本应该是没有问题的`git+https://github.com/huggingface/peft@e536616888d51b453ed354a6f1e243fecb02ea08`

@mrbemani 但是不应该是最新版吧,这个问题就是因为PEFT一直在更新导致的问题。所以我们现在是固定了以前的一个版本。

@mrbemani 那你可以把peft版本卸了重装一下 ``` !pip uninstall peft !pip install git+https://github.com/huggingface/peft@e536616888d51b453ed354a6f1e243fecb02ea08 ```

1、training loss下降的慢到后面不下降很正常(因为现在这个lora的setting要训练的参数比较少,同时batch size开的比较大,不过你将batch_size整体开大确实是会收敛的更慢,可以只增大micro_batch_size会跑的快一点),你可以看一下eval loss是否在下降。我们loss大概也是这样的。 2、将repetition penalty设置高一点可以避免一直生成,不过我们之前测的时候一般很早就到eos(除了有时候会生成重复的东西需要调大repetition penalty),你现在每个问题都是这个情况吗? 3、卡死的情况到没怎么遇过,感觉这种时候可以点一下stop,chatgpt那边有时候也是这样,和刷新、重启之类的一个道理,请求频繁了会造成一定的阻塞 8bit是否能在V100上训练这个我因为没直接在上面跑过,确实不太清楚,不过看很多人在8bit上都多少遇到了生成乱码、loss训练炸了等问题。如果方便的话,你可以把你在V100上的训练方案提供给我们。

这个[issue](https://github.com/tloen/alpaca-lora/issues/279)可能对你们的问题有所帮助。

这三个都是同一个数据

@uloveqian2021 感谢对我们项目的关注。 关于llama词表的问题,其实也是很多模型的问题。 下面是一个简单的测试代码。 ```python from transformers import LlamaTokenizer, LlamaForCausalLM tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf") inputs = "你好一丁丂七丄丅丆万丈三上下丌不与丏丐丑丒专且丕世丗丘丙业丛东丝丞丟丠両丢丣两严並丧丨丩" input_ids = tokenizer(inputs, return_tensors="pt")['input_ids'] print(input_ids) print(tokenizer.decode(input_ids[0])) ``` 正常输出为: ``` tensor([[ 1, 29871, 30919, 31076,...

@sgsdxzy lora并不具备学习新知识的能力(或说非常弱),同时它对模型做的破坏也比较小,相当于一种定向挖掘。 补充全新的中文知识肯定不适合用lora。我觉得经济一点考虑可以在llama的数据上做三段式训练架构:pretrain + pre-finetune + finetune,这样pretrain的时候就用llama的模型(不需要自己去预训练),finetune的时候用lora来定向增强,pre-finetune的时候使用你自己需要扩充的数据集。这种范式在不少paper中也有。 然后offload非常慢,如果训练进度你可以接受的话也可以考虑。我们后续可能会考虑加上模型并行的部分来跑更大的模型。不过模型越大,训练速度越慢,建议看看进程,在合理的范围内就行。13B的llama纸面数据要比7B的好很多,你也可以考虑,更大模型考虑训练行程我觉得得上A100了。