tomcat123a
tomcat123a
Pretrain Run the following script to pre-train the GLM-Large model bash scripts/ds_pretrain_nvidia.sh config/ds_block_large.sh The script [scripts/ds_pretrain_nvidia.sh](https://github.com/THUDM/GLM/blob/main/scripts/ds_pretrain_nvidia.sh) launches the training program with DeepSpeed. You should change NUM_WORKERS and NUM_GPUS_PER_WORKER to the...
https://github.com/shibing624/MedicalGPT/blob/main/pretraining.py 这个是chatglm6b的预训练。
https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的
有的,用websocket
生成的时候,有参数min_new_tokens,max_new_tokens设置一年就按照“token”个数生成了。
https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的
pretrain的代码是有的。https://github.com/THUDM/GLM 中参考[pretrain_glm.py](https://github.com/THUDM/GLM/blob/main/pretrain_glm.py)
https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的。
有多张gpu加载的时候用chatglm6b github里面的多卡加载
不要用deepspeed,用huggingface 的accelerate,或者加载的时候,device_map="auto"