swift icon indicating copy to clipboard operation
swift copied to clipboard

有关MP DDP的疑问

Open sunyrain opened this issue 3 months ago • 2 comments

命令行参数文件中说默认采样比例是0.01,我有一个大小为200k的数据集,4卡训练,NPROC_PER_NODE=2\ CUDA_VISIBLE_DEVICES=0,1,2,3 \那么模型验证的时候,验证的数量为1000是正常的吗?还是说1000并不代表1000条数据?谢谢 image

sunyrain avatar Mar 24 '24 14:03 sunyrain

设置 --train_dataset_sample -1

Jintao-Huang avatar Mar 24 '24 17:03 Jintao-Huang

感谢答复,但是我已经设置了 --train_dataset_sample -1,否则总进度条大约在1250左右,谢谢。我怀疑是ddp造成的?是不是他只在一个节点上抽取了0.01的数据进行验证?

sunyrain avatar Mar 25 '24 00:03 sunyrain