insightface icon indicating copy to clipboard operation
insightface copied to clipboard

MFR Ongoing测试服务器挂机的问题

Open yangminzhi opened this issue 3 years ago • 8 comments

当网络中使用到torch.split或torch.chunk的时候,会造成测试服务器CPU出现内存泄露并死机。 在本地服务器上测试发现当cudnn==8.0.5会造成这个问题,升级cudnn的版本可以解决这个问题。 麻烦升级 MFR测试服务器的cudnn版本来解决这个问题,多谢!

yangminzhi avatar Jul 01 '22 07:07 yangminzhi

升级cudnn后,cuda10.2+onnxruntime-1.6-gpu可以正常工作吗?

nttstar avatar Jul 01 '22 08:07 nttstar

cuda10.2支持不同版本的cudnn,你可以在下面链接上下载对应的版本: https://developer.nvidia.com/rdp/cudnn-archive

yangminzhi avatar Jul 01 '22 10:07 yangminzhi

不是cuda的适配性,而是onnxruntime-1.6-gpu可否正常执行。1.6-gpu默认要求的环境是cudnn 8.0.5

nttstar avatar Jul 01 '22 10:07 nttstar

网页上介绍使用的是onnxruntime==1.8 Online evaluation server uses onnxruntime-gpu==1.8, cuda==11.1, cudnn==8.0.5, GPU is RTX3090

yangminzhi avatar Jul 01 '22 11:07 yangminzhi

onnxruntime==1.8.0是可以支持cudnn v8.1.1和cudnn v.8.2.4

yangminzhi avatar Jul 01 '22 11:07 yangminzhi

其他版本是不是支持我这边没有测试过,不过这两个版本都没有内存泄露的问题。

yangminzhi avatar Jul 01 '22 11:07 yangminzhi

这个奔溃是必现的吗?我之前上传的模型使用过torch.chunk,结果能正常出来。

Jason-Zhou-JC avatar Jul 02 '22 03:07 Jason-Zhou-JC

崩溃是内存泄露造成的,网络比较深或者这两个op用很多次的话,内存泄漏会很明显,最后肯定会崩溃的。

jelleopard avatar Jul 02 '22 05:07 jelleopard