GPT-SoVITS

GPT-SoVITS copied to clipboard

Reame
Issues

对比了一下V2和V3版本

Open LaoliAI opened this issue 9 months ago • 19 comments

今天测试了一下V2和V3版本，V2用的刘悦大佬的最新版本，V3用的官方最新的GPT-SoVITS-v3lora-20250228版本，同样的素材，同样的训练方式，同样的推理，结果很明显：V3版本的效果不如V2，V3电音严重，音质也没有V2的好，看介绍V3使用更新的技术，但显然还需要再调试。非常感谢花儿不哭开源了如此优秀的项目。

Mar 03 '25 07:03 LaoliAI

同感，感觉确实不如v2版本，比较电，不是很自然，而且有时候同一条声音音色前后还会变，我已经把采样步数这种能给高的都给高了

好的一点是嘴瓢没有v2多了，吐字更顺畅一些，没发现吃字情况

Mar 03 '25 14:03 soldivelot

用的多长数据集阿？

Mar 03 '25 14:03 katana8188

我该怎么复现你们的结果，能否提供训练参数和训练集

Mar 03 '25 15:03 RVC-Boss

我都是用V3的GPT模型配 v2的sovits模型 💯 笑哭

Mar 03 '25 15:03 sunosv

数据集和推理结果，康辉说话带些气泡音，换其他人会更电一些 foo.zip

参数设置，这里参数都是默认的，除了中间模型多存了俩

Mar 03 '25 17:03 soldivelot

又生了一次，更电了 audio.zip

Mar 03 '25 17:03 soldivelot

zero-shot 我初步试了几条参考音频，例如有一两条从 https://www.youtube.com/watch?v=DY2s25yRa3M 截取的清晰响亮的音频，结果都是不太尽人意，采样数从 4 试到 128 都还是隔几个词就可能会电音一下

Mar 03 '25 18:03 Chi8wah

数据集和推理结果，康辉说话带些气泡音，换其他人会更电一些 foo.zip

参数设置，这里参数都是默认的，除了中间模型多存了俩

我测试一下

Mar 04 '25 06:03 RVC-Boss

我都是用V3的GPT模型配 v2的sovits模型 💯 笑哭

还可以这样啊，我试试

Mar 04 '25 09:03 foreverhell

https://github.com/RVC-Boss/GPT-SoVITS/issues/2053#issue-2852950651 我使用同样的数据训练，生成音频的结果是，v3电音更弱，但是节奏也更差

Mar 04 '25 09:03 foreverhell

同感，感觉确实不如v2版本，比较电，不是很自然，而且有时候同一条声音音色前后还会变，我已经把采样步数这种能给高的都给高了

好的一点是嘴瓢没有v2多了，吐字更顺畅一些，没发现吃字情况

音色不稳定+1

Mar 04 '25 13:03 ajlsunset

我都是用 V3 的 GPT 模型配 v2 的 sovits 模型 💯 笑哭

試了試，比純v3要好很多，雖然還是有一些電

Mar 05 '25 07:03 Namarimizu

数据集和推理结果，康辉说话带些气泡音，换其他人会更电一些 foo.zip

参数设置，这里参数都是默认的，除了中间模型多存了俩

刚准备测试，看到你包里发的结果的v2和v3，我感觉v3的混响环境是跟训练集更贴切的，并且v2的呼吸还有电（10秒处），v3没有。v2的，7s秘书“zhang”v2发音不如v3，听不出v3哪里有问题（是指音色的洪亮程度吗）

Mar 06 '25 06:03 RVC-Boss

混响确实会更接近，v3咬字也会比v2好些至于电音，康辉这个确实不是很明显，我再提供一个我尝试的声音，这个会更显著一些参数全部默认，每个版本连续生成三次 garandthumb.zip

Mar 06 '25 13:03 soldivelot

数据集和推理结果，康辉说话带些气泡音，换其他人会更电一些 foo.zip

参数设置，这里参数都是默认的，除了中间模型多存了俩

我用你的数据集试了一下，这是32步跑的效果，一次出，我觉得非常棒呀

Mar 06 '25 14:03 Lolokling32

这个和我生成的结果差不多，我这个例子选的不太好，康辉说话气泡音重了些，电的感觉对比不是很突出，你可以试试我今天刚发的那个数据集@Lolokling32

Mar 06 '25 15:03 soldivelot

这个和我生成的结果差不多，我这个例子选的不太好，康辉说话气泡音重了些，电的感觉对比不是很突出，你可以试试我今天刚发的那个数据集@Lolokling32

这是我用你训练集里最长的那条音频+底模直接克隆的，采样数开到了128，模仿的没那么到位，但是电流声不明显（比如fighting，seldom这些词）。你用微调模型的话，我认为采样数开到32就应该不会有电音了

英文结果.zip

Mar 06 '25 15:03 Lolokling32

V3比V2改善很多嘴瓢，嘴瓢和D2模型有关系？

Mar 10 '25 06:03 Lock1994

我也做了一下对比，准确来说不是“电音”，而是感觉v3的整体发声更模糊？更像录制设备旁边有噪声，有一种不清晰的感觉（比如v3-3的“dog”），戴耳机可能听得更明显。（v2则是有时部分低音会很明显的哑掉，如v2-1的“letters are”, v2-2的“learn”）

v3的采样步数是64，也开了超分。

Mar 17 '25 15:03 Idiotabtcodes