GPT-SoVITS
GPT-SoVITS copied to clipboard
感谢大佬开源这个工程,想请教个问题
我的音源量足够,但是质量可能不太够。这个工程对数据质量要求应该比较高,因为我用3小时普通话纯人声(无手动打标)训出来的模型效果只能算差强人意。在这种情况下,我只能手动一条条打标,筛选出质量高的片段吗,但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。
数据集不一定要这么多啊,最多就半个小时以内就可以了呀,一般 5-10 分钟就好了。 发件人: peki12345 ***@***.***>日期: 星期三, 2024年2月7日 08:58收件人: RVC-Boss/GPT-SoVITS ***@***.***>抄送: Subscribed ***@***.***>主题: [RVC-Boss/GPT-SoVITS] 感谢大佬开源这个工程,想请教个问题 (Issue #417)我的音源量足够,但是质量可能不太够。这个工程对数据质量要求应该比较高,因为我用3小时普通话纯人声(无手动打标)训出来的模型效果只能算差强人意。在这种情况下,我只能手动一条条打标,筛选出质量高的片段吗,但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>
数据集不一定要这么多啊,最多就半个小时以内就可以了呀,一般 5-10 分钟就好了。 发件人: peki12345 ***@***.***>日期: 星期三, 2024年2月7日 08:58收件人: RVC-Boss/GPT-SoVITS ***@***.***>抄送: Subscribed ***@***.***>主题: [RVC-Boss/GPT-SoVITS] 感谢大佬开源这个工程,想请教个问题 (Issue #417)我的音源量足够,但是质量可能不太够。这个工程对数据质量要求应该比较高,因为我用3小时普通话纯人声(无手动打标)训出来的模型效果只能算差强人意。在这种情况下,我只能手动一条条打标,筛选出质量高的片段吗,但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>
明白您的意思,但我总体声源质量都不高,凑出5到10分支高质量声源也需要很大的工作量筛选。所以想问问有什么方法能用大量数据弥补数据质量不高的问题,比如最粗暴的加参数量?我想咱们这个工程毕竟是个神经网络,鲁棒性应该是可以的,是不是能像LLMA这样大力出奇迹
按道理 30 秒就能出效果
不需要那么多,多了没意义!而且训练次数不易过多,太多反而不好