Retrieval-based-Voice-Conversion-WebUI H800训练会使loss异常增加到nan？

不知道有没有人用H800训练过。

我的个人电脑，windows系统，显卡3060，python3.10, cuda11.7,torch2.3可以正常训练，20几个epoch就可以将初始为31的loss_mel训练到15左右，得到的pth和index推理结果也正常。

计算服务器是linux系统，显卡H800，python3.9 3.10, cuda12.2, torch2.1~2.5都试过，使用1-4块H800都试过，使用和前述同样的数据和配置（基本就是gitclone下来之后没再动过），但训练时loss_mel会从30逐渐升至50，60，之后变为nan。得到的pth和index推理出的结果几乎为纯蜂鸣声。

看了其他问题的回答修改过fp16_run 为false，不起作用；减小learning_rate的初值，虽然在200轮以内不会出现nan，但得到的pth推理出的音频仍然充满电流声与蜂鸣声。

不知道是cuda版本的问题，pytorch版本的问题，还是显卡的问题？有没有用H800出现同样问题的？

Dec 12 '24 16:12 jphtd

在计算服务器上不使用gpu，直接使用cpu训练也是正常的，只要用到了gpu就会出现上面的问题

Dec 14 '24 10:12 jphtd

我这里是用H200下去训练，依样也是loss会变成nan，推理出来也是蜂鸣声，但一样的方法我在本地的4090上就不会有问题，想问一下你这里的问题有解决了吗?

Jan 21 '25 03:01 shawnxox5173682

@jphtd facing exact same issue on h100. you found any solution to this?

Sep 09 '25 14:09 rasenganai