GPT-SoVITS
GPT-SoVITS copied to clipboard
短句合成会漏字
不仅仅api.py会出现,gui推理也同样会出现。 文本: 许腾鹤担任恒大集团珠三角公司董事长期间。
他会忽略期间2个字。
#581 #579 看来都是同一个问题
请多次测试推理,尝试更换微调模型。默认参数跑了几个模型测试都没复现,文本格式化输出是否正常?
我这边也遇到了同样的问题
刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现
总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。
刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现
总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。
gpt训练有没有开启dpo?跑一下带dpo的,然后推理的时候调整dpo参数试试
刚继续进行了测试 1.更换了朗读文本后 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.换回之前有问题的文本后,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.换了预测音频和参考文本后,第一遍没有出现,第二遍也没有出现,第三遍也没有出现
总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。
音质可以先拿参考音频试试https://podcast.adobe.com/enhance做一下增强。目前模型会完整地继承参考音频的音质
嗯,这和微调模型有关系,我换了个模型就没有出现过这样的问题了。我估计是因为切分的时候,音频没有切好,把部分切的有问题,所以训练的时候导致模型出了问题。【我听了下,是没有切好】,然后我用了以前从sovits整合包里面提取出来的切分代码,切出来单个音频连贯性好了很多,现在在训练和标注把不准确的或者读音效果不好的给删掉,然后用新模型在来试试。我测试完之后,再来反馈我测试的结果。
重新训练模型,解决了
测试: 我将原本的短句,小于3秒的全部用脚本删除,将太短的进行合并,然后在一个一个进行标注校对,发现确实有没有读完的asr,比如期间,他只读了一个期,但是文字上asr识别出期间。这种我都进行了删除。将分离的有问题的,进行了合并,不连贯的也全都删除了。
结果: 用修改后的数据合成的新模型,再使用同样的语句的时候,没有发现这样的问题。
这些天遇到的合成问题总结: 1.如果音质有问题 改预测音频和文案 2.如果有多读的情况,或者带了预测音频的内容 检查预测音频和文案是否清晰,是否为完整的一句,并且用短句合成在拼接,建议控制20字以内(20字以内都没出现这种情况) 3.如果有几个重复的字在一起的时候,发现了重读或者只读一个 比如,道可道,非常道。这里面就有2个字很近,这就有可能忽略,建议短句合成在拼接,发现就没有这种情况了 4.如果用了短句合成后,最后还末尾漏字或者读音不准,或者不通顺 查看asr和对应的音频进行重新标注,把读音不准的句子里面的字给替换,或者把不通顺的给删除,然后重新进行训练
mark 一下
重新训练模型,解决了
测试: 我将原本的短句,小于3秒的全部用脚本删除,将太短的进行合并,然后在一个一个进行标注校对,发现确实有没有读完的asr,比如期间,他只读了一个期,但是文字上asr识别出期间。这种我都进行了删除。将分离的有问题的,进行了合并,不连贯的也全都删除了。
结果: 用修改后的数据合成的新模型,再使用同样的语句的时候,没有发现这样的问题。
这些天遇到的合成问题总结: 1.如果音质有问题 改预测音频和文案 2.如果有多读的情况,或者带了预测音频的内容 检查预测音频和文案是否清晰,是否为完整的一句,并且用短句合成在拼接,建议控制20字以内(20字以内都没出现这种情况) 3.如果有几个重复的字在一起的时候,发现了重读或者只读一个 比如,道可道,非常道。这里面就有2个字很近,这就有可能忽略,建议短句合成在拼接,发现就没有这种情况了 4.如果用了短句合成后,最后还末尾漏字或者读音不准,或者不通顺 查看asr和对应的音频进行重新标注,把读音不准的句子里面的字给替换,或者把不通顺的给删除,然后重新进行训练
我也出现了这种情况,多谢踩坑,我试试你的方法吧