GPT-SoVITS
GPT-SoVITS copied to clipboard
【Webui问题咨询】推理时出现第一句话被吞
已经确保参考音频和打标是对的 经常出现这么一种情况:
原文本:反正。。你们也不需要这么做对吧
推理输出音频:你们也不需要这么做对吧
在原文本前面加个“啊,”
原文本:啊,反正。。你们也不需要这么做对吧
推理输出音频:反正。。你们也不需要这么做对吧
不知道为什么第一个停顿的句子有时候会被吞,有时候却不会
我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。
输出音频是hello man 不来的人也会死
感觉每次合成的语音像是抽卡 而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s]
同样的问题,会出现漏字吞字或者加字的情况
更逆天的是,我的参考那里抽了一段warma的语音:”我先试一下啊,就是为了方便倒回来之后可以念的比较顺利,所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候,它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......
更逆天的是,我的参考那里抽了一段warma的语音:”我先试一下啊,就是为了方便倒回来之后可以念的比较顺利,所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候,它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......
哈哈,想问一下 你的gpt模型训练了多少步?
@ADKcodeXD 蛮多的,我觉得可能反而是太多了 不过根据我这个观察到的现象,有没有可能我们可以用一个更大的GPT模型来直接融合 Language Model 和 TTS Model? 我们或许可以训练/finetune 一个LLM来直接输出 语音合成器 想要的格式,同时也能让GPT学习角色的语气和说话风格 以后把GPT4等作为大脑进行推理和指令中枢,然后用这个特殊训练过的 LLM 作为和人交互的语音模块 GPT4 输入抽象的 ”想法“ 到这个模块里 然后这个模块直接生成和外界交互的风格化回应
关于warma的模型,我现在准备跑第二锅看看跑完我发上来
会不会过度消耗显存。。。。
还好 反正都要一起运行的了,不如直接合一起 大不了就分开两张卡跑 或者上48G的那种卡
感觉每次合成的语音像是抽卡 而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s] AR模型的弊端,但天花板高
我也遇到了这个问题,有些时候会重复最后两三个字,有些时候直接吞掉前面的字,比如我想让他说 1 2 3 4 5 6 7 8 9 10,他有非常大的可能只生成3 4 5 6 7 8 9 10。目前这项目跟抽卡没什么区别,每次生成的语音相差比较大,希望以后能提升稳定性。
开头漏字,试试在最开头加一个句号@D3lik @ADKcodeXD
我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。 输出音频是
hello man 不来的人也会死
漏参考音频作为开头已经修了,我给参考音频结尾强制加静音0.3秒就好多了,你试试更新下代码@Mrchen116
