GPT-SoVITS 单词丢失

http://127.0.0.1:9880/?text=But Biscuit is still chewing his towel&text_language=en

第一次生成is 没有发音后面几次发音了

Woof发音异常第二次正确

output_32.wav output_31.wav

这是其中两次的发音

“Fetch the ball” 重复，但是第二次正常

output_44.wav

“Biscuit” 偶尔不发音

output_64.wav

音频参考附件 wav.zip

请帮忙修复这些问题，因为不清楚完整的代码流程，不知道从哪里排查，如果有需要可以配合debug

Aug 10 '24 09:08 selfnat

启动参数

./runtime/bin/python api.py -s "SoVITS_weights_v2/xh2_e24_s600.pth" -g "GPT_weights_v2/xh2-e50.ckpt" -dr "output_xh/denoise_opt/vocal_vocal_xh.wav_main_vocal.wav_10.wav_0001643840_0001768000.wav" -dt "Everyone loves the library" -dl "en" -mt wav

Aug 10 '24 09:08 selfnat

控制dpo参数

Aug 10 '24 09:08 KamioRinn

控制dpo参数

是这个训练的时候勾选这个吗

Aug 10 '24 12:08 selfnat

推理的时候右侧参数调节

Aug 10 '24 22:08 KamioRinn

推理的时候右侧参数调节

还是存在短padding在api.py中不发音问题，参数api和web调整的一样的，但是web可以发音 api不可以， demo http://127.0.0.1:9880/?text=reference&text_language=en

Aug 10 '24 23:08 selfnat

api top_k默认是20

Aug 11 '24 15:08 KamioRinn

有传递参数data = { "text": text, "text_language": "en", "top_k": 15, "top_p": 1, "temperature": 1, "speed": 1, }。两侧是一样的时候也一样的， api不出结果的次数概率多，web很少

Aug 11 '24 15:08 selfnat

生成的结果本来就是随机的，只能通过DPO控制，web和api没有什么差别的

Aug 12 '24 12:08 KamioRinn

有什么方式控制在一个随机值上吗？就是控制一个单词，每次发音都是一样的

这个参数是否是控制这个随机的

Aug 13 '24 02:08 selfnat

GPT-SoVITS GPT-SoVITS copied to clipboard

单词丢失

GPT-SoVITS
GPT-SoVITS copied to clipboard