GPT-SoVITS
GPT-SoVITS copied to clipboard
单词丢失
http://127.0.0.1:9880/?text=But Biscuit is still chewing his towel&text_language=en
第一次生成is 没有发音后面几次发音了
Woof发音异常第二次正确
output_32.wav output_31.wav
这是其中两次的发音
“Fetch the ball” 重复,但是第二次正常
output_44.wav
“Biscuit” 偶尔不发音
output_64.wav
音频参考附件 wav.zip
请帮忙修复这些问题,因为不清楚完整的代码流程,不知道从哪里排查,如果有需要可以配合debug
启动参数
./runtime/bin/python api.py -s "SoVITS_weights_v2/xh2_e24_s600.pth" -g "GPT_weights_v2/xh2-e50.ckpt" -dr "output_xh/denoise_opt/vocal_vocal_xh.wav_main_vocal.wav_10.wav_0001643840_0001768000.wav" -dt "Everyone loves the library" -dl "en" -mt wav
控制dpo参数
控制dpo参数
是这个训练的时候勾选这个吗
推理的时候右侧参数调节
推理的时候右侧参数调节
还是存在短padding在api.py中不发音问题,参数api和web调整的一样的,但是web可以发音 api不可以, demo http://127.0.0.1:9880/?text=reference&text_language=en
api top_k默认是20
有传递参数data = { "text": text, "text_language": "en", "top_k": 15, "top_p": 1, "temperature": 1, "speed": 1, }。两侧是一样的时候也一样的, api不出结果的次数概率多,web很少
生成的结果本来就是随机的,只能通过DPO控制,web和api没有什么差别的
有什么方式控制在一个随机值上吗?就是控制一个单词,每次发音都是一样的