KamioRinn
KamioRinn
预测推理的时候,同句话里面有相似度极高的句子容易引发复读,建议将句子按标点切分。 https://github.com/RVC-Boss/GPT-SoVITS/assets/63162909/0183c579-96cd-4d6b-a659-72ce392e712c
> 按照标点切分后,在使用auto作为text_language参数传入,还是会有出现静音的情况。 手动将语言设置为en后,没有出现了。附件为同一段文字在auto与en下的结果。 大佬能否处理一下? > 无法复现,请尝试更新项目代码及依赖
> 是否和选定的参考音频有关?我采用zero shot,参考音频如下。 [20240321_12_09_52_774596_priest_8sec.zip](https://github.com/RVC-Boss/GPT-SoVITS/files/14721542/20240321_12_09_52_774596_priest_8sec.zip) 如果命令行显示的前端处理后文本一样,那en auto 就没区别,可以考虑提升模型,降低dpo
没有更新依赖包,与语言选项无关。仅仅是因为默认选择纯中纯日时不会调用LangSegment所以没报错
请多次测试推理,尝试更换微调模型。默认参数跑了几个模型测试都没复现,文本格式化输出是否正常?
> 刚继续进行了测试 1.**更换了朗读文本后** 第一遍出现了漏字情况,第二遍就没有这种情况了,第三遍也没有。 2.**换回之前有问题的文本后**,第一遍出现,第二遍出现,第三遍没有出现,第四遍出现【概率就变得很高了】 3.**换了预测音频和参考文本后**,第一遍没有出现,第二遍也没有出现,第三遍也没有出现 > > 总结:感觉是玄学。。 我换了音质较差的预测音频,合成清晰度变差了,但是反而没有出现字的问题,,@KamioRinn,你方便不?我把模型和预测音频发你测测看?我的预测音频应该是没有问题的。看看能不能解决这种偶发性,我估摸着是GPT模型有优化空间。 gpt训练有没有开启dpo?跑一下带dpo的,然后推理的时候调整dpo参数试试
请参照inference_webui.py修改api代码实现。
API已更新https://github.com/RVC-Boss/GPT-SoVITS/commit/4afecd1950845a974350cd2d8dc8dcf12398fba9
可以把输出的音频丢回asr步骤进行转译