GPT-SoVITS 【Webui问题咨询】推理时出现第一句话被吞

已经确保参考音频和打标是对的经常出现这么一种情况：

原文本：反正。。你们也不需要这么做对吧
推理输出音频：你们也不需要这么做对吧

在原文本前面加个“啊，”

原文本：啊，反正。。你们也不需要这么做对吧
推理输出音频：反正。。你们也不需要这么做对吧

不知道为什么第一个停顿的句子有时候会被吞，有时候却不会

Jan 19 '24 02:01 ADKcodeXD

我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。输出音频是hello man 不来的人也会死

Jan 19 '24 08:01 Mrchen116

感觉每次合成的语音像是抽卡而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s]

Jan 19 '24 10:01 hyhuc0079

同样的问题，会出现漏字吞字或者加字的情况

Jan 19 '24 11:01 CloudTronUSA

更逆天的是，我的参考那里抽了一段warma的语音：”我先试一下啊，就是为了方便倒回来之后可以念的比较顺利，所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候，它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......

Jan 19 '24 11:01 CloudTronUSA

更逆天的是，我的参考那里抽了一段warma的语音：”我先试一下啊，就是为了方便倒回来之后可以念的比较顺利，所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候，它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......

哈哈，想问一下你的gpt模型训练了多少步？

Jan 19 '24 11:01 ADKcodeXD

@ADKcodeXD 蛮多的，我觉得可能反而是太多了不过根据我这个观察到的现象，有没有可能我们可以用一个更大的GPT模型来直接融合 Language Model 和 TTS Model？我们或许可以训练/finetune 一个LLM来直接输出语音合成器想要的格式，同时也能让GPT学习角色的语气和说话风格以后把GPT4等作为大脑进行推理和指令中枢，然后用这个特殊训练过的 LLM 作为和人交互的语音模块 GPT4 输入抽象的 ”想法“ 到这个模块里然后这个模块直接生成和外界交互的风格化回应

关于warma的模型，我现在准备跑第二锅看看跑完我发上来

Jan 19 '24 14:01 CloudTronUSA

会不会过度消耗显存。。。。

Jan 19 '24 23:01 hyhuc0079

还好反正都要一起运行的了，不如直接合一起大不了就分开两张卡跑或者上48G的那种卡

Jan 20 '24 00:01 CloudTronUSA

感觉每次合成的语音像是抽卡而且每次推理的这个进度条好像都不会走完 DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']> 14%|███████████▏ | 212/1500 [00:02<00:13, 95.10it/s]T2S Decoding EOS [87 -> 303] 14%|███████████▍ | 216/1500 [00:02<00:14, 89.89it/s] AR模型的弊端，但天花板高

Jan 20 '24 08:01 MrYANG23

我也遇到了这个问题，有些时候会重复最后两三个字，有些时候直接吞掉前面的字，比如我想让他说 1 2 3 4 5 6 7 8 9 10，他有非常大的可能只生成3 4 5 6 7 8 9 10。目前这项目跟抽卡没什么区别，每次生成的语音相差比较大，希望以后能提升稳定性。

Jan 20 '24 14:01 D3lik

开头漏字，试试在最开头加一个句号@D3lik @ADKcodeXD

Jan 28 '24 11:01 RVC-Boss

我也遇到了类似的问题。我的问题是偶尔会把参考音频最后几个字也出现在输出语音中。输出音频是hello man 不来的人也会死

漏参考音频作为开头已经修了，我给参考音频结尾强制加静音0.3秒就好多了，你试试更新下代码@Mrchen116

Jan 28 '24 11:01 RVC-Boss

GPT-SoVITS GPT-SoVITS copied to clipboard

【Webui问题咨询】推理时出现第一句话被吞

GPT-SoVITS
GPT-SoVITS copied to clipboard