GPT-SoVITS 不该断句的地方断句了

比如输入是“董林忠，同学”，生成的音频是“董林，忠同学”，也就是断句的地方不对，请问怎么避免这个问题呢

May 08 '24 09:05 neuxys

建议先到网页版本试一下断句功能看看断的文本是怎么样的

May 08 '24 12:05 BOCEAN-FENG

建议先到网页版本试一下断句功能看看断的文本是怎么样的

感谢您的回复！我这里使用的是fast_interence_分支，python webui.py启动，推理界面参数使用的均为默认的，参考音频是16字的约3s的。断句的位置我发现与符号“，”并没有关系。即便把“，”去掉也会出现“林”字后面断开（持续约0.0x秒音频强度非常小，趋于0）。尝试推理一些“5字内的短句子”出现这种断句错误概率非常高。

我打算在音频生成完成之后，检测强度小于某个阈值（例如50dB）的音频重新生成。

May 09 '24 02:05 neuxys

捕获123 what？这个很奇怪，其实我自己尝试了一下，首先断句功能是没有问题的，其次我自己也生成了一下语音，也没有什么问题。

哦我看到了，咱得把“分段间隔”设置长一点，程序是按照我们设定的切分方式把一个长句子切成很多份，然后分开生成，最后合成到一起。你这里首先右上角要选择切分方式，切分完之后还应该在左边推理设置改一下分段间隔

May 10 '24 11:05 BOCEAN-FENG

多生成几次就出现了，在fast_interence_分支，大概6次会出现一次这种情况。在main分支10几次会出现一次，要仔细听才能识别出来。

这个输入只有“董林忠同学”5个字，理论上不必使用文本切分工具吧，文本切分工具主要是针对长句子的。

当然这个也许和训练数据不同有关系？也许和参考音频有关系？这个不得而知

May 10 '24 12:05 neuxys

对于短语而非句子，如果需要增强适配度需要拉高训练音频时长。

Jun 07 '24 11:06 Separatee

@neuxys 请问你这个项目名称是什么？我想看看“分段间隔”这个参数，原项目生成的音频开始间隔时间实在太短了，短到几乎没有，批量生成时直接就出现破音了，不知道UP主有没有优化这个问题

Jun 10 '24 05:06 fangg2024

@neuxys 请问你这个项目名称是什么？我想看看“分段间隔”这个参数，原项目生成的音频开始间隔时间实在太短了，短到几乎没有，批量生成时直接就出现破音了，不知道UP主有没有优化这个问题

@fangg2024 问一下你用的是fast_inference_这个分支吗?如果不是你可以

git clone --depth=1 -b fast_inference_ https://github.com/RVC-Boss/GPT-SoVITS.git fast_inference

然后把fast_inference目录除了.git和docker的所有文件覆盖到GPT-SoVITS主目录再按你的方式使用pip(如果使用整合包需要对命令进行调整)

pip install wordsegment

启动webui，便会有一系列关于推理设置的选项。

Jun 10 '24 06:06 Separatee

GPT-SoVITS GPT-SoVITS copied to clipboard

不该断句的地方断句了

GPT-SoVITS
GPT-SoVITS copied to clipboard