HtFLlib
HtFLlib copied to clipboard
训练速度很慢
感谢作者提供实验平台! 我的问题是:我在使用pfllib运行baseline的时候一切正常,且200轮的实验只需要1天左右时间就可以完成 但是在HtFLlib上,我发现我的baseline有时候一天只能够跑8轮 我的gpu设备是8张3090,cpu platinum 8176,想问一下作者有没有同样的训练速度的问题,如果没有可以问一下解决方案吗
我们同时跑了96个线程,这会不会是导致速度很慢的原因?
同样出现了这样的现象~@
PFLlib和HtFLlib的这两次测试过程中,都是用的同样的模型吗?HtFLlib中由于考虑模型异构,会用到比较大的模型,比如ResNet152。此外,PFLlib的所有操作在启动后都是在GPU memory中操作的,而HtFLlib每一轮都有大量的disk、CPU memory、GPU memory的IO操作,所以如果希望能跑快一点,对disk的存取速度也是有要求的。从模拟的真实性来说,HtFLlib更具真实性。
总的来说,在训练速度方便的话,PFLlib基本上只需要考虑GPU的性能即可,而HtFLlib需要考虑GPU、CPU、memory、disk的质量。
我自己跑实验也确实会慢一些,但因为服务器可能整体速度还可以,所以也没感觉特别慢。