GPT-SoVITS
GPT-SoVITS copied to clipboard
不该断句的地方断句了
比如输入是“董林忠,同学”,生成的音频是“董林,忠同学”,也就是断句的地方不对,请问怎么避免这个问题呢
建议先到网页版本试一下断句功能看看断的文本是怎么样的
建议先到网页版本试一下断句功能看看断的文本是怎么样的
感谢您的回复!我这里使用的是fast_interence_分支,python webui.py
启动,推理界面参数使用的均为默认的,参考音频是16字的约3s的。断句的位置我发现与符号“,”并没有关系。即便把“,”去掉也会出现“林”字后面断开(持续约0.0x秒音频强度非常小,趋于0)。尝试推理一些“5字内的短句子”出现这种断句错误概率非常高。
我打算在音频生成完成之后,检测强度小于某个阈值(例如50dB)的音频重新生成。
what?这个很奇怪,其实我自己尝试了一下,首先断句功能是没有问题的,其次我自己也生成了一下语音,也没有什么问题。
哦 我看到了,咱得把“分段间隔”设置长一点,程序是按照我们设定的切分方式把一个长句子切成很多份,然后分开生成,最后合成到一起。你这里首先右上角要选择切分方式,切分完之后还应该在左边推理设置改一下分段间隔
多生成几次就出现了,在fast_interence_分支,大概6次会出现一次这种情况。在main分支10几次会出现一次,要仔细听才能识别出来。
这个输入只有“董林忠同学”5个字,理论上不必使用文本切分工具吧,文本切分工具主要是针对长句子的。
当然这个也许和训练数据不同有关系?也许和参考音频有关系?这个不得而知
对于短语而非句子,如果需要增强适配度需要拉高训练音频时长。
@neuxys 请问你这个项目名称是什么?我想看看“分段间隔”这个参数,原项目生成的音频开始间隔时间实在太短了,短到几乎没有,批量生成时直接就出现破音了,不知道UP主有没有优化这个问题
@neuxys 请问你这个项目名称是什么?我想看看“分段间隔”这个参数,原项目生成的音频开始间隔时间实在太短了,短到几乎没有,批量生成时直接就出现破音了,不知道UP主有没有优化这个问题
@fangg2024 问一下你用的是fast_inference_这个分支吗?如果不是你可以
git clone --depth=1 -b fast_inference_ https://github.com/RVC-Boss/GPT-SoVITS.git fast_inference
然后把fast_inference目录除了.git和docker的所有文件覆盖到GPT-SoVITS主目录 再按你的方式使用pip(如果使用整合包需要对命令进行调整)
pip install wordsegment
启动webui,便会有一系列关于推理设置的选项。