ChatGLM-Efficient-Tuning issues

莫名的出错

3

执行bash train_sft.sh 报错 _Originally posted by @chenxw321 in https://github.com/hiyouga/ChatGLM-Efficient-Tuning/issues/217#issuecomment-1612911197_

chenxw321

invalid

尝试了#163 里的解决方案，train()时候加入autocast，loss不会下降，一直在2.x。如果不加入则多卡不能跑evaluation，会报和这个issue一样的错？好奇作者的多卡测试是怎么跑通的，硬件环境a100，参数和这个issue提到的一致（除了数据集的地址） ``` # loss一直在2.x无法下降 with torch.autocast("cuda"): train_result = trainer.train() trainer.log_metrics("train", train_result.metrics) trainer.save_metrics("train", train_result.metrics) trainer.save_state() trainer.save_model() if trainer.is_world_process_zero() and model_args.plot_loss: plot_loss(training_args.output_dir, keys=["loss", "eval_loss"]) ```

yifan-chen-2020

pending

应该是cli_demo.py有点问题

3

### 现象描述我的训练集现在只是有一条数据，就是who are you。我将它训练了120轮，并且在执行预测的时候表现如下 ### 然后执行 python src/cli_demo.py --checkpoint_dir examples/new_path_one/checkpoint-80/ 这个代码然后他的回答和预测的时候完全不一样。这个是终端的回答这个是他的预测

LiZhangMing

pending

微调chatglm2需要多少显存？

3

同等参数下，chatglm可以微调，chatglm2就爆显存，是模型优化问题吗？ CUDA_VISIBLE_DEVICES=0 python src/train_sft.py \ --do_train \ --dataset alpaca_gpt4_zh \ --finetuning_type lora \ --output_dir path_to_sft_checkpoint \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine \ --logging_steps 10 \ --save_steps 1000...

CCzzzzzzz

pending

使用LORA微调数据量为147条专业的对话，但是微调过后发现和没有微调前的表现一样，没有学会呢

11

LiZhangMing

pending

使用QLoRA微调时报错

3

参数如下： CUDA_VISIBLE_DEVICES=0 python src/train_sft.py --do_train --dataset alpaca_gpt4_zh --finetuning_type lora --quantization_bit 4 --output_dir path_to_sft_checkpoint --per_device_train_batch_size 4 --gradient_accumulation_steps 4 --lr_scheduler_type cosine --logging_steps 10 --save_steps 1000 --learning_rate 5e-5 --num_train_epochs 3.0 --fp16 报错信息如下： ![image](https://github.com/hiyouga/ChatGLM-Efficient-Tuning/assets/99600203/432cc519-42c1-413f-93db-19a4569b5712)

CCzzzzzzz

pending

即使在训练集上，预测效果也非常差

4

1、训练集loss非常低： 83%|████████▎ | 200/240 [27:39

ljch2018

pending

ChatGLM-6b lora微调出错，label ids全为-100

12

使用的命令如下，并且更换了数据集也是一样的情况。 ``` CUDA_VISIBLE_DEVICES=0 python src/train_sft.py \ --do_train \ --dataset alpaca_gpt4_zh \ --dataset_dir data \ --finetuning_type lora \ --output_dir finetunev1_alpaca \ --overwrite_cache \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine...

fslongjin

pending

自定义rejected部分数据集生成有什么好的方法推荐吗

目前能想到的可以批量出rejected的方法： 1.采用较差的模型生成的anwser作为rejected 2.anwser部分数据集提取摘要作为rejected 想问下你们的rejected部分数据集是怎么生成的，谢谢

yuguo-Jack

pending

训练完完最新的chatglm2的时候，测试的时候说我的checkpoint不是LORA的

2

训练的代码，已完成： `CUDA_VISIBLE_DEVICES=3 python ../src/train_sft.py \ --model_name_or_path "THUDM/chatglm2-6b" \ --use_v2 \ --do_train \ --dataset electric \ --dataset_dir ../data \ --finetuning_type lora \ --output_dir path_to_sft_checkpoint \ --overwrite_cache \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps...

LiZhangMing

solved

ChatGLM-Efficient-Tuning
ChatGLM-Efficient-Tuning copied to clipboard

Metadata

莫名的出错

多卡微调打开evaluation报错

应该是cli_demo.py有点问题

微调chatglm2需要多少显存？

使用LORA微调数据量为147条专业的对话，但是微调过后发现和没有微调前的表现一样，没有学会呢

使用QLoRA微调时报错

即使在训练集上，预测效果也非常差

ChatGLM-6b lora微调出错，label ids全为-100

自定义rejected部分数据集生成有什么好的方法推荐吗

训练完完最新的chatglm2的时候，测试的时候说我的checkpoint不是LORA的

← Metadata

Owner

Metadata

ChatGLM-Efficient-Tuning ChatGLM-Efficient-Tuning copied to clipboard

Metadata

← Metadata

Owner

Metadata

ChatGLM-Efficient-Tuning
ChatGLM-Efficient-Tuning copied to clipboard