pytorch-distributed
pytorch-distributed copied to clipboard
请问使用DistributedSampler,各个GPU的数据是如何分配的?是连续(互不相同)的还是相同的?
trafficstars
我仿照了您的方法实现了一次分布式训练:发现单机单卡和多机多卡完成相同次数epoch的时间差不多,遂有所问。
在我的实现情况下:多卡训练比单卡训练的模型收敛更加快了。