Yuqian Zhang
Yuqian Zhang
Thanks for the feedback. We've fixed the issue. Please pull the latest code and try again.
感谢关注。MOSS-TTSD的训练使用了约30万小时的中英文对话数据。如果想要在MOSS-TTSD的基础上针对某个说话人的音色进行微调,10分钟左右的数据就可以有比较好的效果。
使用lora微调,50epoch左右
> > 使用lora微调,50epoch左右 > > 请问一下用单人数据微调之后是使用spkid还是prefix续写呢 prefix续写
> 您好,再问下几个问题哈: > > 1. 请问训练数据的平均长度大概是每一条多少秒,数据长度越大是否对于稳定性有帮助呢? > 2. 在准备训练数据的时候,对于同一个说话人,是否需要都指定一句reference_audio和reference_text进行训练呢?也就是对于用一个音色都固定一句作为前缀呢?这么处理是比不固定要好一点吗? > "reference_audio": "/path/to/reference.wav", > "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", > 谢谢哈 [@xiami2019](https://github.com/xiami2019) 1.单条平均长度约2分钟。moss_ttsd训练数据是最长16分钟,如果想微调后仍保持较好的长音频生成能力,建议训练数据里加入一定数量的长音频。 2.同一说话人建议固定一个reference_audio和reference_text。