微调数据量大概是多少时长
你好,感谢你的出色工作,请问多少时长的对话数据可以微调一个比较理想的模型?
感谢关注。MOSS-TTSD的训练使用了约30万小时的中英文对话数据。如果想要在MOSS-TTSD的基础上针对某个说话人的音色进行微调,10分钟左右的数据就可以有比较好的效果。
@rulerman 感谢回复,了解了,请问10分钟左右的数据,大概需要微调多少个epoch
使用lora微调,50epoch左右
👌,十分感谢!!!
使用lora微调,50epoch左右
请问一下用单人数据微调之后是使用spkid还是prefix续写呢
使用lora微调,50epoch左右
请问一下用单人数据微调之后是使用spkid还是prefix续写呢
prefix续写
prefix续写是更稳定吗
使用lora微调,50epoch左右
请问一下用单人数据微调之后是使用spkid还是prefix续写呢
prefix续写
prefix续写是更稳定吗
使用lora微调,50epoch左右
请问一下用单人数据微调之后是使用spkid还是prefix续写呢
prefix续写
@GuangChen2016 是的,prefix续写会更加稳定
您好,再问下几个问题哈:
- 请问训练数据的平均长度大概是每一条多少秒,数据长度越大是否对于稳定性有帮助呢?
- 在准备训练数据的时候,对于同一个说话人,是否需要都指定一句reference_audio和reference_text进行训练呢?也就是对于用一个音色都固定一句作为前缀呢?这么处理是比不固定要好一点吗? "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019
您好,再问下几个问题哈:
- 请问训练数据的平均长度大概是每一条多少秒,数据长度越大是否对于稳定性有帮助呢?
- 在准备训练数据的时候,对于同一个说话人,是否需要都指定一句reference_audio和reference_text进行训练呢?也就是对于用一个音色都固定一句作为前缀呢?这么处理是比不固定要好一点吗? "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019
1.单条平均长度约2分钟。moss_ttsd训练数据是最长16分钟,如果想微调后仍保持较好的长音频生成能力,建议训练数据里加入一定数量的长音频。 2.同一说话人建议固定一个reference_audio和reference_text。
同一说话人建议固定一个reference_audio和reference_text是在训底座的时候就要这么做吗?那么reference_audio和reference_text的选择有啥依据吗? 另外,训练的时候reference_audio部分对应的loss要考虑吗 @xiami2019