GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

有试了zeroshot的朋友,反馈一下效果如何吗?

Open lucasjinreal opened this issue 1 year ago • 10 comments

zeroshot机械音比较重,基本不可用,fewshot有人试了效果如何吗

lucasjinreal avatar Jan 19 '24 02:01 lucasjinreal

B站有很多视频:https://www.bilibili.com/video/BV1aQ4y1w7bF https://www.bilibili.com/video/BV1Hw411J7aA

kexul avatar Jan 19 '24 04:01 kexul

我自己训练了个,给不同人听,有的说很像,有的说不像。

录了 1 分钟多音频,但是声音质量有点差,有噪音在里面。用默认参数训练,我觉得还挺像

selfboot avatar Jan 19 '24 05:01 selfboot

@kexul 这几个感觉都是几个小时的数据训练的 啊。

@selfboot 挺像 但是声音质量有点差是啥意思

lucasjinreal avatar Jan 19 '24 07:01 lucasjinreal

@kexul 这几个感觉都是几个小时的数据训练的 啊。

@selfboot 挺像 但是声音质量有点差是啥意思

视频作者的数据有放在hugging face上的,大部分都是半个小时左右吧。我尝试用半个小时左右的音频训了一下,感觉还是挺像的,就是有的时候会吞字和重复,可能是素材本身普通话就说的不标准的问题,也有可能是训过头了(我用了40epoch)。

音质差就是出来的声音会有噪声,可能是素材有底噪,也有可能是底模的问题(好像模型的训练集数据采样率是32000hz)。我用我自己收集的直播数据,训练出来感觉音质就很差,然后用上面的视频里面的数据,训练出来的效果还可以,但是比原始素材里面的音质还是差点。

kexul avatar Jan 19 '24 07:01 kexul

@kexul 这几个感觉都是几个小时的数据训练的 啊。

@selfboot 挺像 但是声音质量有点差是啥意思

就是我样本采集的时候,有轻微背景噪音,我也没去噪音。

selfboot avatar Jan 19 '24 08:01 selfboot

@kexul 这几个感觉都是几个小时的数据训练的 啊。

@selfboot 挺像 但是声音质量有点差是啥意思

就是我样本采集的时候,有轻微背景噪音,我也没去噪音。

有啥好办法去噪么?我现在是用audacity手动搞的,费劲

kexul avatar Jan 19 '24 12:01 kexul

@kexul 这几个感觉都是几个小时的数据训练的 啊。 @selfboot 挺像 但是声音质量有点差是啥意思

就是我样本采集的时候,有轻微背景噪音,我也没去噪音。

有啥好办法去噪么?我现在是用audacity手动搞的,费劲

UVR5

company8 avatar Jan 19 '24 15:01 company8

@kexul 你是自己标注了6分钟数据训练的吗,有没有音频听一下看看

lucasjinreal avatar Jan 20 '24 14:01 lucasjinreal

@kexul 你是自己标注了6分钟数据训练的吗,有没有音频听一下看看

我用webui里面的打标工具搞的,里面是调用了阿里的funasr来做asr,然后手动检查了一下文本。感觉需要修改的地方主要是断句,加了一些标点符号。

我这边差不多收集了30多分钟的音频。效果我不知道能不能分享,收集的一个知名解说的直播视频,感觉会有版权问题...

kexul avatar Jan 20 '24 15:01 kexul

刚刚试了一下只用6分钟左右来微调,感觉效果还是不太行,比之前半小时的数据差距很明显。估计数据还是越多越好。

kexul avatar Jan 21 '24 04:01 kexul