smxzhangxiaaobo

Results 1 issues of smxzhangxiaaobo

在模型训练过程发现内存(非显存)泄露问题,现象为随着训练轮次增加内存一直往上涨,最后定位到原因是在损失类里如下语句导致 logging_output = { "loss": loss, } 改为 logging_output = { "loss": loss.data } 问题:为何少加了.data,会导致内存泄露呢? 不加.data,reduce_metrics收到数据为 outputs [{'sample_size': 1, 'loss': tensor(5.6797, device='cuda:0', dtype=torch.float16, grad_fn=)}] 加上.data为 outputs [{'sample_size': 1, 'loss': tensor(5.6797,...