GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

【Webui问题咨询】推理时出现第一句话被吞

Open ADKcodeXD opened this issue 1 year ago • 12 comments

已经确保参考音频和打标是对的 经常出现这么一种情况:

原文本:反正。。你们也不需要这么做对吧
推理输出音频:你们也不需要这么做对吧

在原文本前面加个“啊,”

原文本:啊,反正。。你们也不需要这么做对吧
推理输出音频:反正。。你们也不需要这么做对吧

不知道为什么第一个停顿的句子有时候会被吞,有时候却不会 image

ADKcodeXD avatar Jan 19 '24 02:01 ADKcodeXD

我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。 输出音频是hello man 不来的人也会死 image

Mrchen116 avatar Jan 19 '24 08:01 Mrchen116

感觉每次合成的语音像是抽卡 而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s]

hyhuc0079 avatar Jan 19 '24 10:01 hyhuc0079

同样的问题,会出现漏字吞字或者加字的情况

CloudTronUSA avatar Jan 19 '24 11:01 CloudTronUSA

更逆天的是,我的参考那里抽了一段warma的语音:”我先试一下啊,就是为了方便倒回来之后可以念的比较顺利,所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候,它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......

CloudTronUSA avatar Jan 19 '24 11:01 CloudTronUSA

更逆天的是,我的参考那里抽了一段warma的语音:”我先试一下啊,就是为了方便倒回来之后可以念的比较顺利,所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候,它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......

哈哈,想问一下 你的gpt模型训练了多少步?

ADKcodeXD avatar Jan 19 '24 11:01 ADKcodeXD

@ADKcodeXD 蛮多的,我觉得可能反而是太多了 不过根据我这个观察到的现象,有没有可能我们可以用一个更大的GPT模型来直接融合 Language Model 和 TTS Model? 我们或许可以训练/finetune 一个LLM来直接输出 语音合成器 想要的格式,同时也能让GPT学习角色的语气和说话风格 以后把GPT4等作为大脑进行推理和指令中枢,然后用这个特殊训练过的 LLM 作为和人交互的语音模块 GPT4 输入抽象的 ”想法“ 到这个模块里 然后这个模块直接生成和外界交互的风格化回应

关于warma的模型,我现在准备跑第二锅看看跑完我发上来

CloudTronUSA avatar Jan 19 '24 14:01 CloudTronUSA

会不会过度消耗显存。。。。

hyhuc0079 avatar Jan 19 '24 23:01 hyhuc0079

还好 反正都要一起运行的了,不如直接合一起 大不了就分开两张卡跑 或者上48G的那种卡

CloudTronUSA avatar Jan 20 '24 00:01 CloudTronUSA

感觉每次合成的语音像是抽卡 而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s] AR模型的弊端,但天花板高

MrYANG23 avatar Jan 20 '24 08:01 MrYANG23

我也遇到了这个问题,有些时候会重复最后两三个字,有些时候直接吞掉前面的字,比如我想让他说 1 2 3 4 5 6 7 8 9 10,他有非常大的可能只生成3 4 5 6 7 8 9 10。目前这项目跟抽卡没什么区别,每次生成的语音相差比较大,希望以后能提升稳定性。

D3lik avatar Jan 20 '24 14:01 D3lik

开头漏字,试试在最开头加一个句号@D3lik @ADKcodeXD

RVC-Boss avatar Jan 28 '24 11:01 RVC-Boss

我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。 输出音频是hello man 不来的人也会死 image

漏参考音频作为开头已经修了,我给参考音频结尾强制加静音0.3秒就好多了,你试试更新下代码@Mrchen116

RVC-Boss avatar Jan 28 '24 11:01 RVC-Boss