ChatGLM2-6B [BUG/Help] <title>bash train.sh出错，AttributeError: 'Seq2SeqTrainer' object has no attribute 'is_deepspeed

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

bash train.sh

PRE_SEQ_LEN=256 LR=2e-2 NUM_GPUS=1

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py
--do_train
--train_file ../data/train_data.json
--validation_file ../data/test_data.json
--preprocessing_num_workers 10
--prompt_column instruction
--response_column output
--overwrite_cache
--model_name_or_path ../model
--output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR
--overwrite_output_dir
--max_source_length 64
--max_target_length 128
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--gradient_accumulation_steps 16
--predict_with_generate
--max_steps 3000
--logging_steps 10
--save_steps 1000
--learning_rate $LR
--pre_seq_len $PRE_SEQ_LEN

Expected Behavior

我搜了一下，说可能是transformers版本问题，但我这不就是4.30.2吗

Steps To Reproduce

bash train.sh

Environment

- OS: Ubuntu
- Python:3.9
- Transformers:4.30.2
- PyTorch:2.0
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

Jul 04 '23 08:07 SolarKnight1

+1 也遇到此问题

Jul 04 '23 08:07 MakiNaruto

就是transformers版本问题，你用4.27.1

Jul 04 '23 08:07 opooopooo

就是transformers版本问题，你用4.27.1

他不是要求的4.30.2吗，这改回去没事吗

Jul 04 '23 08:07 SolarKnight1

就是transformers版本问题，你用4.27.1

已确认，换成4.27.1该问题解决了。自4.28.1以上应该都不行。

Jul 04 '23 08:07 MakiNaruto

我直接把 trainer_pt_utils.py 841行的 self.is_deepspeed_enabled: 改成了 if False: 反正没用到deepspeed，先跑跑试试，暂时没问题

Jul 04 '23 08:07 nuohy

我是在trainer.py的init方法最后先加了一行 self.is_deepspeed_enabled = False

Jul 04 '23 09:07 NeilRon

请问： ptuning需要单卡多少显存啊，24g够不够

Jul 04 '23 09:07 zhangyunming

请问： ptuning需要单卡多少显存啊，24g够不够

fp16得我这只用了22多点G

Jul 04 '23 10:07 SolarKnight1

这个应该算是bug,不应该关闭,应该让官方看到修复一下

Jul 05 '23 02:07 shenmadouyaowen

[BUG/Help] <title>bash train.sh出错，AttributeError: 'Seq2SeqTrainer' object has no attribute 'is_deepspeed_enabled'

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?