insightface MFR Ongoing测试服务器挂机的问题

MFR Ongoing测试服务器挂机的问题

Open yangminzhi opened this issue 3 years ago • 8 comments

当网络中使用到torch.split或torch.chunk的时候，会造成测试服务器CPU出现内存泄露并死机。在本地服务器上测试发现当cudnn==8.0.5会造成这个问题，升级cudnn的版本可以解决这个问题。麻烦升级 MFR测试服务器的cudnn版本来解决这个问题，多谢！

Jul 01 '22 07:07 yangminzhi

升级cudnn后，cuda10.2+onnxruntime-1.6-gpu可以正常工作吗？

Jul 01 '22 08:07 nttstar

cuda10.2支持不同版本的cudnn，你可以在下面链接上下载对应的版本: https://developer.nvidia.com/rdp/cudnn-archive

Jul 01 '22 10:07 yangminzhi

不是cuda的适配性，而是onnxruntime-1.6-gpu可否正常执行。1.6-gpu默认要求的环境是cudnn 8.0.5

Jul 01 '22 10:07 nttstar

网页上介绍使用的是onnxruntime==1.8 Online evaluation server uses onnxruntime-gpu==1.8, cuda==11.1, cudnn==8.0.5, GPU is RTX3090

Jul 01 '22 11:07 yangminzhi

onnxruntime==1.8.0是可以支持cudnn v8.1.1和cudnn v.8.2.4

Jul 01 '22 11:07 yangminzhi

其他版本是不是支持我这边没有测试过，不过这两个版本都没有内存泄露的问题。

Jul 01 '22 11:07 yangminzhi

这个奔溃是必现的吗？我之前上传的模型使用过torch.chunk，结果能正常出来。

Jul 02 '22 03:07 Jason-Zhou-JC

崩溃是内存泄露造成的，网络比较深或者这两个op用很多次的话，内存泄漏会很明显，最后肯定会崩溃的。

Jul 02 '22 05:07 jelleopard