cyxdsp

Results 10 comments of cyxdsp

> 报错截全一点,我的可以微调,结果也可以运行。

> ![image](https://user-images.githubusercontent.com/17777706/251066804-12fef7bd-96d7-4a7a-85d0-3050f3c81e3a.png) 看来这个问题挺普遍的,我把我的代码发上来吧,也许是什么设置不一样。

> 我也有这个问题,求解 看来这个问题挺普遍的,我把我的代码发上来吧,也许是什么设置不一样。

> > ![image](https://user-images.githubusercontent.com/17777706/251066384-fac5ab2f-36d9-4358-84de-5b3b3c751579.png) > > 我改了之后也卡到这一步了 看来这个问题挺普遍的,我把我的代码发上来吧,也许是什么设置不一样。

[https://github.com/cyxdsp/chatglm2----win--](url):我修改的代码在这里,你们自己看吧

> 楼主好像没有用GPU跑 PRE_SEQ_LEN=128 LR=1e-3 NUM_GPUS=0#我用了GUP啊,编号0

> RuntimeError: Default process group has not been initialized, please make sure to call init_process_group. 真的跪了 你把你的mian.py和train.sh上传给我看俺,这个问题我遇到过,还是分布式的问题

> 楼主,我的main.py没有做变动,下面是train_chat.sh: PRE_SEQ_LEN=128 LR=1e-2 NUM_GPUS=6 CHAT_TRAIN_DATA=/data/lxh/workspace/nlp/ft-dataset/lxh_v3/sft_v3_lxh_shuffle.json CHAT_VAL_DATA=/data/lxh/workspace/nlp/ft-dataset/lxh_v3/sft_v3_lxh_shuffle.json CHECKPOINT_NAME=output/chatglm-6b2-pt-lxh-v3-$PRE_SEQ_LEN-$LR > > #torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \ > > CUDA_VISIBLE_DEVICES=1,2,3,4,5,6 python3 main.py --do_train --train_file $CHAT_TRAIN_DATA --validation_file $CHAT_VAL_DATA --preprocessing_num_workers 10 --prompt_column instruction...

> > > 同环境,同配置,同问题。如上操作后,出现新问题。 > > > │ C:\ProgramData\anaconda3\envs\glm\lib\site-packages\torch\distributed\distributed_c10d.py:707 in _get_default_group │ 704 │ Getting the default process group created by init_process_group │ 705 │ """ │ 706 │ if...