insightface
insightface copied to clipboard
MFR Ongoing测试服务器挂机的问题
当网络中使用到torch.split或torch.chunk的时候,会造成测试服务器CPU出现内存泄露并死机。 在本地服务器上测试发现当cudnn==8.0.5会造成这个问题,升级cudnn的版本可以解决这个问题。 麻烦升级 MFR测试服务器的cudnn版本来解决这个问题,多谢!
升级cudnn后,cuda10.2+onnxruntime-1.6-gpu可以正常工作吗?
cuda10.2支持不同版本的cudnn,你可以在下面链接上下载对应的版本: https://developer.nvidia.com/rdp/cudnn-archive
不是cuda的适配性,而是onnxruntime-1.6-gpu可否正常执行。1.6-gpu默认要求的环境是cudnn 8.0.5
网页上介绍使用的是onnxruntime==1.8 Online evaluation server uses onnxruntime-gpu==1.8, cuda==11.1, cudnn==8.0.5, GPU is RTX3090
onnxruntime==1.8.0是可以支持cudnn v8.1.1和cudnn v.8.2.4
其他版本是不是支持我这边没有测试过,不过这两个版本都没有内存泄露的问题。
这个奔溃是必现的吗?我之前上传的模型使用过torch.chunk,结果能正常出来。
崩溃是内存泄露造成的,网络比较深或者这两个op用很多次的话,内存泄漏会很明显,最后肯定会崩溃的。