GPT-SoVITS 有试了zeroshot的朋友，反馈一下效果如何吗？

zeroshot机械音比较重，基本不可用，fewshot有人试了效果如何吗

Jan 19 '24 02:01 lucasjinreal

B站有很多视频：https://www.bilibili.com/video/BV1aQ4y1w7bF https://www.bilibili.com/video/BV1Hw411J7aA

Jan 19 '24 04:01 kexul

我自己训练了个，给不同人听，有的说很像，有的说不像。

录了 1 分钟多音频，但是声音质量有点差，有噪音在里面。用默认参数训练，我觉得还挺像

Jan 19 '24 05:01 selfboot

@kexul 这几个感觉都是几个小时的数据训练的啊。

@selfboot 挺像但是声音质量有点差是啥意思

Jan 19 '24 07:01 lucasjinreal

@kexul 这几个感觉都是几个小时的数据训练的啊。

@selfboot 挺像但是声音质量有点差是啥意思

视频作者的数据有放在hugging face上的，大部分都是半个小时左右吧。我尝试用半个小时左右的音频训了一下，感觉还是挺像的，就是有的时候会吞字和重复，可能是素材本身普通话就说的不标准的问题，也有可能是训过头了（我用了40epoch）。

音质差就是出来的声音会有噪声，可能是素材有底噪，也有可能是底模的问题（好像模型的训练集数据采样率是32000hz）。我用我自己收集的直播数据，训练出来感觉音质就很差，然后用上面的视频里面的数据，训练出来的效果还可以，但是比原始素材里面的音质还是差点。

Jan 19 '24 07:01 kexul

@kexul 这几个感觉都是几个小时的数据训练的啊。

@selfboot 挺像但是声音质量有点差是啥意思

就是我样本采集的时候，有轻微背景噪音，我也没去噪音。

Jan 19 '24 08:01 selfboot

@kexul 这几个感觉都是几个小时的数据训练的啊。

@selfboot 挺像但是声音质量有点差是啥意思

就是我样本采集的时候，有轻微背景噪音，我也没去噪音。

有啥好办法去噪么？我现在是用audacity手动搞的，费劲

Jan 19 '24 12:01 kexul

@kexul 这几个感觉都是几个小时的数据训练的啊。 @selfboot 挺像但是声音质量有点差是啥意思

就是我样本采集的时候，有轻微背景噪音，我也没去噪音。

有啥好办法去噪么？我现在是用audacity手动搞的，费劲

Jan 19 '24 15:01 company8

@kexul 你是自己标注了6分钟数据训练的吗，有没有音频听一下看看

Jan 20 '24 14:01 lucasjinreal

@kexul 你是自己标注了6分钟数据训练的吗，有没有音频听一下看看

我用webui里面的打标工具搞的，里面是调用了阿里的funasr来做asr，然后手动检查了一下文本。感觉需要修改的地方主要是断句，加了一些标点符号。

我这边差不多收集了30多分钟的音频。效果我不知道能不能分享，收集的一个知名解说的直播视频，感觉会有版权问题...

Jan 20 '24 15:01 kexul

刚刚试了一下只用6分钟左右来微调，感觉效果还是不太行，比之前半小时的数据差距很明显。估计数据还是越多越好。

Jan 21 '24 04:01 kexul

GPT-SoVITS GPT-SoVITS copied to clipboard