ChatGLM-Tuning
ChatGLM-Tuning copied to clipboard
基于ChatGLM-6B + LoRA的Fintune方案
训练后加载模型,发现问答不生效,不是训练的内容,感觉好像还是原来模型的回答,LoRa不起作用了。 以下是加载模型的部分代码: ``` device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu") model = AutoModel.from_pretrained("models/chatglm-6b", trust_remote_code=True, load_in_8bit=True, device_map='auto', revision="") tokenizer = AutoTokenizer.from_pretrained("models/chatglm-6b", trust_remote_code=True, revision="") model = PeftModel.from_pretrained(model, "/home/glm/ChatGLM-Tuning/output") ```
请问一下,我在trainer加入了用来验证的数据集,eval数据集是从mini_train_datasets中分出来的,但是为什么产生如下错误? TypeError:iteration over a 0-d tensor 根据报错信息,应该是验证过程中存在错误,只使用train的数据不会报错。
1. `CastOutputToFloat` seems unnecessary when finetuning. When computing loss, the code [`lm_logits = lm_logits.to(torch.float32)` ](https://github.com/mymusise/ChatGLM-Tuning/blob/master/modeling_chatglm.py#L1051) will cast half to float32. I also compare the result w/wo the `CastOutputToFloat` op and...
如题,这个数据量应该评估如何
训练结果改变不大,用infer代码能知道是加载了正确答案。但是永远不是正确答案。怎么就能让他回答正确答案呢。
不使用量化的推理显存占用14GB,使用量化8之后显存占用20GB,量化4则占用17GB,请问是什么原因导致? 显卡是A100 80G
如题,前阵看篇论文有提供qlora的效果也是不差的,训练的成本可以进一步降低。不知道大佬是否有计划可以顺便支持下这个训练方式
我有四五张显卡配置了环境后发现第一张卡占用了十多g 后面几张才几百m 我想均分 可以支持吗