HtFLlib icon indicating copy to clipboard operation
HtFLlib copied to clipboard

训练速度很慢

Open daxu0111 opened this issue 1 year ago • 2 comments

感谢作者提供实验平台! 我的问题是:我在使用pfllib运行baseline的时候一切正常,且200轮的实验只需要1天左右时间就可以完成 但是在HtFLlib上,我发现我的baseline有时候一天只能够跑8轮 我的gpu设备是8张3090,cpu platinum 8176,想问一下作者有没有同样的训练速度的问题,如果没有可以问一下解决方案吗

daxu0111 avatar Apr 24 '24 08:04 daxu0111

我们同时跑了96个线程,这会不会是导致速度很慢的原因?

daxu0111 avatar Apr 24 '24 09:04 daxu0111

同样出现了这样的现象~@

gebilxs avatar Apr 24 '24 09:04 gebilxs

PFLlib和HtFLlib的这两次测试过程中,都是用的同样的模型吗?HtFLlib中由于考虑模型异构,会用到比较大的模型,比如ResNet152。此外,PFLlib的所有操作在启动后都是在GPU memory中操作的,而HtFLlib每一轮都有大量的disk、CPU memory、GPU memory的IO操作,所以如果希望能跑快一点,对disk的存取速度也是有要求的。从模拟的真实性来说,HtFLlib更具真实性。

总的来说,在训练速度方便的话,PFLlib基本上只需要考虑GPU的性能即可,而HtFLlib需要考虑GPU、CPU、memory、disk的质量。

TsingZ0 avatar May 26 '24 07:05 TsingZ0

我自己跑实验也确实会慢一些,但因为服务器可能整体速度还可以,所以也没感觉特别慢。

TsingZ0 avatar May 26 '24 08:05 TsingZ0