GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

短句合成会漏字

Open JavaAndPython55 opened this issue 4 months ago • 3 comments

不仅仅api.py会出现,gui推理也同样会出现。 文本: 许腾鹤担任恒大集团珠三角公司董事长期间。

他会忽略期间2个字。

JavaAndPython55 avatar Feb 27 '24 10:02 JavaAndPython55

#581 #579 看来都是同一个问题

JavaAndPython55 avatar Feb 27 '24 10:02 JavaAndPython55

请多次测试推理,尝试更换微调模型。默认参数跑了几个模型测试都没复现,文本格式化输出是否正常?

KamioRinn avatar Feb 27 '24 14:02 KamioRinn

我这边也遇到了同样的问题

einsqing avatar Feb 27 '24 15:02 einsqing

刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现

总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。

JavaAndPython55 avatar Feb 28 '24 02:02 JavaAndPython55

刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现

总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。

gpt训练有没有开启dpo?跑一下带dpo的,然后推理的时候调整dpo参数试试

KamioRinn avatar Feb 28 '24 02:02 KamioRinn

刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现

总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。

音质可以先拿参考音频试试https://podcast.adobe.com/enhance做一下增强。目前模型会完整地继承参考音频的音质

RVC-Boss avatar Feb 28 '24 04:02 RVC-Boss

嗯,这和微调模型有关系,我换了个模型就没有出现过这样的问题了。我估计是因为切分的时候,音频没有切好,把部分切的有问题,所以训练的时候导致模型出了问题。【我听了下,是没有切好】,然后我用了以前从sovits整合包里面提取出来的切分代码,切出来单个音频连贯性好了很多,现在在训练和标注把不准确的或者读音效果不好的给删掉,然后用新模型在来试试。我测试完之后,再来反馈我测试的结果。

JavaAndPython55 avatar Feb 28 '24 05:02 JavaAndPython55

重新训练模型,解决了

测试: 我将原本的短句,小于3秒的全部用脚本删除,将太短的进行合并,然后在一个一个进行标注校对,发现确实有没有读完的asr,比如期间,他只读了一个期,但是文字上asr识别出期间。这种我都进行了删除。将分离的有问题的,进行了合并,不连贯的也全都删除了。

结果: 用修改后的数据合成的新模型,再使用同样的语句的时候,没有发现这样的问题。

这些天遇到的合成问题总结: 1.如果音质有问题 改预测音频和文案 2.如果有多读的情况,或者带了预测音频的内容 检查预测音频和文案是否清晰,是否为完整的一句,并且用短句合成在拼接,建议控制20字以内(20字以内都没出现这种情况) 3.如果有几个重复的字在一起的时候,发现了重读或者只读一个 比如,道可道,非常道。这里面就有2个字很近,这就有可能忽略,建议短句合成在拼接,发现就没有这种情况了 4.如果用了短句合成后,最后还末尾漏字或者读音不准,或者不通顺 查看asr和对应的音频进行重新标注,把读音不准的句子里面的字给替换,或者把不通顺的给删除,然后重新进行训练

JavaAndPython55 avatar Feb 28 '24 07:02 JavaAndPython55