PLSC icon indicating copy to clipboard operation
PLSC copied to clipboard

分类数目变大,尽管可以将参数拆分到各个GPU上,但是各个GPU上的隐层特征allgather也带来显存消耗

Open gobigrassland opened this issue 5 years ago • 1 comments

分类数目变大,虽然可以将分类层参数拆分到各个GPU上,但是各个GPU上的隐层特征allgather也带来显存消耗。随着分类层数目变多,虽然可以通过增加GPU数量来保证fc层参数分配到各个GPU上的显存是一个常数,但是隐层特征x,还是会随着GPU数增加而增加。单卡显存有限,这样也限制仅仅通过增加GPU数量来应对分类数量线性增长。这个问题在论文“Partial FC: training 10 million identities on a single machine”提出。

gobigrassland avatar Nov 06 '20 04:11 gobigrassland

感谢您的反馈,我们先调研下这个问题。

sandyhouse avatar Nov 06 '20 08:11 sandyhouse