GPT-SoVITS 感谢大佬开源这个工程，想请教个问题

我的音源量足够，但是质量可能不太够。这个工程对数据质量要求应该比较高，因为我用3小时普通话纯人声（无手动打标）训出来的模型效果只能算差强人意。在这种情况下，我只能手动一条条打标，筛选出质量高的片段吗，但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。

Feb 07 '24 00:02 peki12345

数据集不一定要这么多啊，最多就半个小时以内就可以了呀，一般 5-10 分钟就好了。发件人: peki12345 ***@***.***>日期: 星期三, 2024年2月7日 08:58收件人: RVC-Boss/GPT-SoVITS ***@***.***>抄送: Subscribed ***@***.***>主题: [RVC-Boss/GPT-SoVITS] 感谢大佬开源这个工程，想请教个问题 (Issue #417)我的音源量足够，但是质量可能不太够。这个工程对数据质量要求应该比较高，因为我用3小时普通话纯人声（无手动打标）训出来的模型效果只能算差强人意。在这种情况下，我只能手动一条条打标，筛选出质量高的片段吗，但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

Feb 07 '24 04:02 Stanley-baby

数据集不一定要这么多啊，最多就半个小时以内就可以了呀，一般 5-10 分钟就好了。发件人: peki12345 ***@***.***>日期: 星期三, 2024年2月7日 08:58收件人: RVC-Boss/GPT-SoVITS ***@***.***>抄送: Subscribed ***@***.***>主题: [RVC-Boss/GPT-SoVITS] 感谢大佬开源这个工程，想请教个问题 (Issue #417)我的音源量足够，但是质量可能不太够。这个工程对数据质量要求应该比较高，因为我用3小时普通话纯人声（无手动打标）训出来的模型效果只能算差强人意。在这种情况下，我只能手动一条条打标，筛选出质量高的片段吗，但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

明白您的意思，但我总体声源质量都不高，凑出5到10分支高质量声源也需要很大的工作量筛选。所以想问问有什么方法能用大量数据弥补数据质量不高的问题，比如最粗暴的加参数量？我想咱们这个工程毕竟是个神经网络，鲁棒性应该是可以的，是不是能像LLMA这样大力出奇迹

Feb 07 '24 05:02 peki12345

按道理 30 秒就能出效果

Feb 07 '24 22:02 AIFSH

不需要那么多，多了没意义！而且训练次数不易过多，太多反而不好

Feb 09 '24 04:02 suonian