GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

单词丢失

Open selfnat opened this issue 1 year ago • 9 comments

http://127.0.0.1:9880/?text=But Biscuit is still chewing his towel&text_language=en

第一次生成is 没有发音后面几次发音了

Woof发音异常第二次正确

output_32.wav output_31.wav

这是其中两次的发音

“Fetch the ball” 重复,但是第二次正常

output_44.wav

“Biscuit” 偶尔不发音

output_64.wav

音频参考附件 wav.zip

请帮忙修复这些问题,因为不清楚完整的代码流程,不知道从哪里排查,如果有需要可以配合debug

selfnat avatar Aug 10 '24 09:08 selfnat

启动参数

./runtime/bin/python api.py -s "SoVITS_weights_v2/xh2_e24_s600.pth" -g "GPT_weights_v2/xh2-e50.ckpt" -dr "output_xh/denoise_opt/vocal_vocal_xh.wav_main_vocal.wav_10.wav_0001643840_0001768000.wav" -dt "Everyone loves the library" -dl "en" -mt wav

selfnat avatar Aug 10 '24 09:08 selfnat

控制dpo参数

KamioRinn avatar Aug 10 '24 09:08 KamioRinn

控制dpo参数 image

是这个训练的时候勾选这个吗

selfnat avatar Aug 10 '24 12:08 selfnat

推理的时候右侧参数调节

KamioRinn avatar Aug 10 '24 22:08 KamioRinn

推理的时候右侧参数调节

还是存在短padding在api.py中不发音问题,参数api和web调整的一样的,但是web可以发音 api不可以, demo http://127.0.0.1:9880/?text=reference&text_language=en

selfnat avatar Aug 10 '24 23:08 selfnat

api top_k默认是20

KamioRinn avatar Aug 11 '24 15:08 KamioRinn

有传递参数data = { "text": text, "text_language": "en", "top_k": 15, "top_p": 1, "temperature": 1, "speed": 1, }。两侧是一样的时候也一样的, api不出结果的次数概率多,web很少

selfnat avatar Aug 11 '24 15:08 selfnat

生成的结果本来就是随机的,只能通过DPO控制,web和api没有什么差别的

KamioRinn avatar Aug 12 '24 12:08 KamioRinn

有什么方式控制在一个随机值上吗?就是控制一个单词,每次发音都是一样的

image 这个参数是否是控制这个随机的

selfnat avatar Aug 13 '24 02:08 selfnat