GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

API的形式调用TTS,中文前面几个字辈忽略了

Open Laixinsz opened this issue 4 months ago • 8 comments

我们相信创造的力量,我们是一支充满活力和冒险精神的团队,敢于挑战常规 得到的音频少了我们相信创造的力量,

道可道,非常道。名可名,非常名。无名天地之始;有名万物之母。故常无欲,以观其妙;常有欲,以观其徼。此两者同出而异名;同谓之玄,玄之又玄,众妙之门。 这段少了道可道,非常道。非常名重复说了2遍

有人遇到这个问题吗?还是需要另外设置?

Laixinsz avatar Feb 22 '24 09:02 Laixinsz

太长导致的,我也遇到过,我发现不仅仅是克隆音会出现这个问题,很多数字人开源项目也会出现,比如wav2lip。时间越久,文案越长效果越差。 这个问题我感觉不是问题,你可以分步合成,我之前遇到这个问题的时候,就把【语句拆成多段】去【单独】推理,然后在concat【拼接】就没有这个问题了。

JavaAndPython55 avatar Feb 22 '24 09:02 JavaAndPython55

我合成时,也遇到类似的问题,合成的文案太短,有时候会把参考音频里面的一些片段,拼到结果里面。期待作者大佬完善。

jacksonEE avatar Feb 22 '24 10:02 jacksonEE

内容分切后也会出现读取不准确,或漏词的情况。

Laixinsz avatar Feb 22 '24 12:02 Laixinsz

api.py起的服务 不能选择切割类型。 如果能选, 像webui那样, 应该能解决大部分合成问题

leiyuyh avatar Feb 23 '24 03:02 leiyuyh

api.py起的服务 不能选择切割类型。 如果能选, 像webui那样, 应该能解决大部分合成问题

这个可以移植webui的切割逻辑,不过切割了也会有这些问题。

Laixinsz avatar Feb 23 '24 09:02 Laixinsz

api.py起的服务 不能选择切割类型。 如果能选, 像webui那样, 应该能解决大部分合成问题

这个可以移植webui的切割逻辑,不过切割了也会有这些问题。

直接写切割逻辑就行了,这个不难

gzp20182108 avatar Feb 26 '24 07:02 gzp20182108

我测试了一下,【跟gpt的预测语音和文本有很大关系】 预测语音和文本我专门弄了个半句的,【发现他就会重复读,并且合成不完整】,即使切分了也没用。 接着,我【换成】整句的,并且非常清晰的预测语音。再进行【同样的切分】合成测试。就正常了,没有发现之前的重复读的问题。你也可以换着预测语音和文本试试。

JavaAndPython55 avatar Feb 27 '24 05:02 JavaAndPython55

【你给的那段我合成】了,【没有问题】,切分后,读的都是正常的。 切分我用的是sox,然后自己写的脚本 脚本大概是:先删除之前的wav音频,用split切分文本,然后每段文案单独合成,保存各个音频,然后用sox将音频合并。

JavaAndPython55 avatar Feb 27 '24 05:02 JavaAndPython55