H800训练会使loss异常增加到nan?
不知道有没有人用H800训练过。
我的个人电脑,windows系统,显卡3060,python3.10, cuda11.7,torch2.3可以正常训练,20几个epoch就可以将初始为31的loss_mel训练到15左右,得到的pth和index推理结果也正常。
计算服务器是linux系统,显卡H800,python3.9 3.10, cuda12.2, torch2.1~2.5都试过,使用1-4块H800都试过,使用和前述同样的数据和配置(基本就是gitclone下来之后没再动过),但训练时loss_mel会从30逐渐升至50,60,之后变为nan。得到的pth和index推理出的结果几乎为纯蜂鸣声。
看了其他问题的回答修改过fp16_run 为false,不起作用;减小learning_rate的初值,虽然在200轮以内不会出现nan,但得到的pth推理出的音频仍然充满电流声与蜂鸣声。
不知道是cuda版本的问题,pytorch版本的问题,还是显卡的问题?有没有用H800出现同样问题的?
在计算服务器上不使用gpu,直接使用cpu训练也是正常的,只要用到了gpu就会出现上面的问题
我这里是用H200下去训练,依样也是loss会变成nan,推理出来也是蜂鸣声,但一样的方法我在本地的4090上就不会有问题,想问一下你这里的问题有解决了吗?
@jphtd facing exact same issue on h100. you found any solution to this?