对比了一下V2和V3版本
今天测试了一下V2和V3版本,V2用的刘悦大佬的最新版本,V3用的官方最新的GPT-SoVITS-v3lora-20250228版本,同样的素材,同样的训练方式,同样的推理,结果很明显:V3版本的效果不如V2,V3电音严重,音质也没有V2的好,看介绍V3使用更新的技术,但显然还需要再调试。非常感谢花儿不哭开源了如此优秀的项目。
同感,感觉确实不如v2版本,比较电,不是很自然,而且有时候同一条声音音色前后还会变,我已经把采样步数这种能给高的都给高了
好的一点是嘴瓢没有v2多了,吐字更顺畅一些,没发现吃字情况
用的多长数据集阿?
我该怎么复现你们的结果,能否提供训练参数和训练集
我都是用V3的GPT模型 配 v2的sovits模型 💯 笑哭
又生了一次,更电了 audio.zip
zero-shot 我初步试了几条参考音频,例如有一两条从 https://www.youtube.com/watch?v=DY2s25yRa3M 截取的清晰响亮的音频,结果都是不太尽人意,采样数从 4 试到 128 都还是隔几个词就可能会电音一下
我都是用V3的GPT模型 配 v2的sovits模型 💯 笑哭
还可以这样啊,我试试
https://github.com/RVC-Boss/GPT-SoVITS/issues/2053#issue-2852950651 我使用同样的数据训练,生成音频的结果是,v3电音更弱,但是节奏也更差
同感,感觉确实不如v2版本,比较电,不是很自然,而且有时候同一条声音音色前后还会变,我已经把采样步数这种能给高的都给高了
好的一点是嘴瓢没有v2多了,吐字更顺畅一些,没发现吃字情况
音色不稳定+1
我都是用 V3 的 GPT 模型 配 v2 的 sovits 模型 💯 笑哭
試了試,比純v3要好很多,雖然還是有一些電
数据集和推理结果,康辉说话带些气泡音,换其他人会更电一些 foo.zip
参数设置,这里参数都是默认的,除了中间模型多存了俩
![]()
![]()
刚准备测试,看到你包里发的结果的v2和v3,我感觉v3的混响环境是跟训练集更贴切的,并且v2的呼吸还有电(10秒处),v3没有。v2的,7s秘书“zhang”v2发音不如v3,听不出v3哪里有问题(是指音色的洪亮程度吗)
混响确实会更接近,v3咬字也会比v2好些 至于电音,康辉这个确实不是很明显,我再提供一个我尝试的声音,这个会更显著一些 参数全部默认,每个版本连续生成三次 garandthumb.zip
这个和我生成的结果差不多,我这个例子选的不太好,康辉说话气泡音重了些,电的感觉对比不是很突出,你可以试试我今天刚发的那个数据集@Lolokling32
这个和我生成的结果差不多,我这个例子选的不太好,康辉说话气泡音重了些,电的感觉对比不是很突出,你可以试试我今天刚发的那个数据集@Lolokling32
这是我用你训练集里最长的那条音频+底模直接克隆的,采样数开到了128,模仿的没那么到位,但是电流声不明显(比如fighting,seldom这些词)。你用微调模型的话,我认为采样数开到32就应该不会有电音了
V3比V2改善很多嘴瓢,嘴瓢和D2模型有关系?
我也做了一下对比,准确来说不是“电音”,而是感觉v3的整体发声更模糊?更像录制设备旁边有噪声,有一种不清晰的感觉(比如v3-3的“dog”),戴耳机可能听得更明显。(v2则是有时部分低音会很明显的哑掉,如v2-1的“letters are”, v2-2的“learn”)
v3的采样步数是64,也开了超分。