Retrieval-based-Voice-Conversion-WebUI icon indicating copy to clipboard operation
Retrieval-based-Voice-Conversion-WebUI copied to clipboard

H800训练会使loss异常增加到nan?

Open jphtd opened this issue 1 year ago • 3 comments

不知道有没有人用H800训练过。

我的个人电脑,windows系统,显卡3060,python3.10, cuda11.7,torch2.3可以正常训练,20几个epoch就可以将初始为31的loss_mel训练到15左右,得到的pth和index推理结果也正常。

计算服务器是linux系统,显卡H800,python3.9 3.10, cuda12.2, torch2.1~2.5都试过,使用1-4块H800都试过,使用和前述同样的数据和配置(基本就是gitclone下来之后没再动过),但训练时loss_mel会从30逐渐升至50,60,之后变为nan。得到的pth和index推理出的结果几乎为纯蜂鸣声。

看了其他问题的回答修改过fp16_run 为false,不起作用;减小learning_rate的初值,虽然在200轮以内不会出现nan,但得到的pth推理出的音频仍然充满电流声与蜂鸣声。

不知道是cuda版本的问题,pytorch版本的问题,还是显卡的问题?有没有用H800出现同样问题的?

jphtd avatar Dec 12 '24 16:12 jphtd

在计算服务器上不使用gpu,直接使用cpu训练也是正常的,只要用到了gpu就会出现上面的问题

jphtd avatar Dec 14 '24 10:12 jphtd

我这里是用H200下去训练,依样也是loss会变成nan,推理出来也是蜂鸣声,但一样的方法我在本地的4090上就不会有问题,想问一下你这里的问题有解决了吗?

shawnxox5173682 avatar Jan 21 '25 03:01 shawnxox5173682

@jphtd facing exact same issue on h100. you found any solution to this?

rasenganai avatar Sep 09 '25 14:09 rasenganai