ChatGLM-Efficient-Tuning issues

训练后loss先上下波动，然后突然变成0

2

我用/examples/alter_cog_chatglm2.sh 这个模板，采用修改成了数据集合：alpaca_data_zh_51k.json，alpaca_gpt4_data_zh.json，comparison_gpt4_data_zh.json。 loss先在2左右上下波动，然后突然变成0，后面一直保持为0，应该是出问题了吧。

mininggold007

pending

相关环境： ```python In [1]: import torch In [2]: import accelerate In [3]: print(torch.__version__) 2.0.1+cu117 In [4]: print(accelerate.__version__) 0.19.0 ``` 运行代码： ```bash accelerate launch src/train_sft.py \ --do_train \ --use_v2 True \...

QuantumDriver

pending

GLM2微调后，同一问题连续提问回答错误

请问现在遇到问题：自定义数据集，500条左右的问答数据，使用cli_demo进行体验，每一个问题的第一次回答都是正确的，连续提问，后面的问题开始胡言乱语，但是在ChatGLM1的时候微调完可以正常使用 ![1688980861130](https://github.com/hiyouga/ChatGLM-Efficient-Tuning/assets/34992709/e295f0b0-51df-4618-9d9c-638c3ea99d69)

noperoc

pending

多gpu lora 报错

3

24G 3090上训练单卡训练lora占用内存 13G 左右多卡训练报错 RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)` 监控GPU, 显存也是一直涨到24G然后报错, 是不是显存不够运行脚本如下: ``` CUDA_VISIBLE_DEVICES=0,1 torchrun --nnodes=1 --nproc_per_node=2 src/train_sft.py \ --model_name_or_path /wang/wangmodels/chatglm2-6b \ --use_v2 \ --do_train...

neptunear

pending

加大batch_size 速度不变

1

为什么加大batchsize, 从 1 到 2 , step数目变了, 时间上没有变, 这是为什么呢?

neptunear

solved

How is the comparison dataset generated?

The comparison dataset used for reward model training, I'm curious how the second answer (one that should be rejected) is generated. Is the result generated by GPT4 or some other...

pkqs90

accelerate分布式训练

1

关于accelerate的使用有一些困惑： 1、代码中没有accelerate相关方法的调用，例如accelerator.prepare()等，为什么使用accelerate launch便可以直接进行分布式训练呢？2、deepspeed方面，accelerate_config.yaml和DeepSpeedPlugin的作用一致吗？望予以解答，不胜感激

Cheung-Z

pending

多卡全量微调报错

root@7d42a87a3b9a:/ChatGLM-Efficient-Tuning# accelerate launch src/train_sft.py --do_train --dataset alpaca_gpt4_zh --finetuning_type full --output_dir path_to_sft_checkpoint --per_device_train_batch_size 4 --gradient_accumulation_steps 4 --lr_scheduler_type cosine --logging_steps 10 --save_steps 1000 --learning_rate 5e-5 --num_train_epochs 3.0 --fp16 --use_v2 trainable params: 6243584000...

lucheng07082221