GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

对比了一下V2和V3版本

Open LaoliAI opened this issue 9 months ago • 19 comments

今天测试了一下V2和V3版本,V2用的刘悦大佬的最新版本,V3用的官方最新的GPT-SoVITS-v3lora-20250228版本,同样的素材,同样的训练方式,同样的推理,结果很明显:V3版本的效果不如V2,V3电音严重,音质也没有V2的好,看介绍V3使用更新的技术,但显然还需要再调试。非常感谢花儿不哭开源了如此优秀的项目。

LaoliAI avatar Mar 03 '25 07:03 LaoliAI

同感,感觉确实不如v2版本,比较电,不是很自然,而且有时候同一条声音音色前后还会变,我已经把采样步数这种能给高的都给高了

好的一点是嘴瓢没有v2多了,吐字更顺畅一些,没发现吃字情况

soldivelot avatar Mar 03 '25 14:03 soldivelot

用的多长数据集阿?

katana8188 avatar Mar 03 '25 14:03 katana8188

我该怎么复现你们的结果,能否提供训练参数和训练集

RVC-Boss avatar Mar 03 '25 15:03 RVC-Boss

我都是用V3的GPT模型 配 v2的sovits模型 💯 笑哭

sunosv avatar Mar 03 '25 15:03 sunosv

数据集和推理结果,康辉说话带些气泡音,换其他人会更电一些 foo.zip

参数设置,这里参数都是默认的,除了中间模型多存了俩

Image Image Image

soldivelot avatar Mar 03 '25 17:03 soldivelot

又生了一次,更电了 audio.zip

soldivelot avatar Mar 03 '25 17:03 soldivelot

zero-shot 我初步试了几条参考音频,例如有一两条从 https://www.youtube.com/watch?v=DY2s25yRa3M 截取的清晰响亮的音频,结果都是不太尽人意,采样数从 4 试到 128 都还是隔几个词就可能会电音一下

Chi8wah avatar Mar 03 '25 18:03 Chi8wah

数据集和推理结果,康辉说话带些气泡音,换其他人会更电一些 foo.zip

参数设置,这里参数都是默认的,除了中间模型多存了俩

Image Image Image

我测试一下

RVC-Boss avatar Mar 04 '25 06:03 RVC-Boss

我都是用V3的GPT模型 配 v2的sovits模型 💯 笑哭

还可以这样啊,我试试

foreverhell avatar Mar 04 '25 09:03 foreverhell

https://github.com/RVC-Boss/GPT-SoVITS/issues/2053#issue-2852950651 我使用同样的数据训练,生成音频的结果是,v3电音更弱,但是节奏也更差

foreverhell avatar Mar 04 '25 09:03 foreverhell

同感,感觉确实不如v2版本,比较电,不是很自然,而且有时候同一条声音音色前后还会变,我已经把采样步数这种能给高的都给高了

好的一点是嘴瓢没有v2多了,吐字更顺畅一些,没发现吃字情况

音色不稳定+1

ajlsunset avatar Mar 04 '25 13:03 ajlsunset

我都是用 V3 的 GPT 模型 配 v2 的 sovits 模型 💯 笑哭

試了試,比純v3要好很多,雖然還是有一些電

Namarimizu avatar Mar 05 '25 07:03 Namarimizu

数据集和推理结果,康辉说话带些气泡音,换其他人会更电一些 foo.zip

参数设置,这里参数都是默认的,除了中间模型多存了俩

Image Image Image

刚准备测试,看到你包里发的结果的v2和v3,我感觉v3的混响环境是跟训练集更贴切的,并且v2的呼吸还有电(10秒处),v3没有。v2的,7s秘书“zhang”v2发音不如v3,听不出v3哪里有问题(是指音色的洪亮程度吗)

RVC-Boss avatar Mar 06 '25 06:03 RVC-Boss

混响确实会更接近,v3咬字也会比v2好些 至于电音,康辉这个确实不是很明显,我再提供一个我尝试的声音,这个会更显著一些 参数全部默认,每个版本连续生成三次 garandthumb.zip

soldivelot avatar Mar 06 '25 13:03 soldivelot

数据集和推理结果,康辉说话带些气泡音,换其他人会更电一些 foo.zip

参数设置,这里参数都是默认的,除了中间模型多存了俩

Image Image Image

我用你的数据集试了一下,这是32步跑的效果,一次出,我觉得非常棒呀

结果-v3.zip

Lolokling32 avatar Mar 06 '25 14:03 Lolokling32

这个和我生成的结果差不多,我这个例子选的不太好,康辉说话气泡音重了些,电的感觉对比不是很突出,你可以试试我今天刚发的那个数据集@Lolokling32

soldivelot avatar Mar 06 '25 15:03 soldivelot

这个和我生成的结果差不多,我这个例子选的不太好,康辉说话气泡音重了些,电的感觉对比不是很突出,你可以试试我今天刚发的那个数据集@Lolokling32

这是我用你训练集里最长的那条音频+底模直接克隆的,采样数开到了128,模仿的没那么到位,但是电流声不明显(比如fighting,seldom这些词)。你用微调模型的话,我认为采样数开到32就应该不会有电音了

英文结果.zip

Lolokling32 avatar Mar 06 '25 15:03 Lolokling32

V3比V2改善很多嘴瓢,嘴瓢和D2模型有关系?

Lock1994 avatar Mar 10 '25 06:03 Lock1994

我也做了一下对比,准确来说不是“电音”,而是感觉v3的整体发声更模糊?更像录制设备旁边有噪声,有一种不清晰的感觉(比如v3-3的“dog”),戴耳机可能听得更明显。(v2则是有时部分低音会很明显的哑掉,如v2-1的“letters are”, v2-2的“learn”)

v3的采样步数是64,也开了超分。

compare.zip

Idiotabtcodes avatar Mar 17 '25 15:03 Idiotabtcodes