MOSS-TTSD 微调数据量大概是多少时长

你好，感谢你的出色工作，请问多少时长的对话数据可以微调一个比较理想的模型？

Aug 22 '25 06:08 Ranzige

感谢关注。MOSS-TTSD的训练使用了约30万小时的中英文对话数据。如果想要在MOSS-TTSD的基础上针对某个说话人的音色进行微调，10分钟左右的数据就可以有比较好的效果。

Aug 22 '25 07:08 rulerman

@rulerman 感谢回复，了解了，请问10分钟左右的数据，大概需要微调多少个epoch

Aug 22 '25 07:08 Ranzige

使用lora微调，50epoch左右

Aug 22 '25 07:08 rulerman

👌，十分感谢！！！

Aug 22 '25 08:08 Ranzige

使用lora微调，50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

Aug 25 '25 08:08 GuangChen2016

使用lora微调，50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

Aug 25 '25 08:08 rulerman

prefix续写是更稳定吗

使用lora微调，50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

Aug 25 '25 09:08 GuangChen2016

prefix续写是更稳定吗

使用lora微调，50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

@GuangChen2016 是的，prefix续写会更加稳定

Aug 27 '25 01:08 xiami2019

您好，再问下几个问题哈：

请问训练数据的平均长度大概是每一条多少秒，数据长度越大是否对于稳定性有帮助呢？
在准备训练数据的时候，对于同一个说话人，是否需要都指定一句reference_audio和reference_text进行训练呢？也就是对于用一个音色都固定一句作为前缀呢？这么处理是比不固定要好一点吗？ "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019

Aug 28 '25 04:08 GuangChen2016

您好，再问下几个问题哈：

请问训练数据的平均长度大概是每一条多少秒，数据长度越大是否对于稳定性有帮助呢？

在准备训练数据的时候，对于同一个说话人，是否需要都指定一句reference_audio和reference_text进行训练呢？也就是对于用一个音色都固定一句作为前缀呢？这么处理是比不固定要好一点吗？ "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019

1.单条平均长度约2分钟。moss_ttsd训练数据是最长16分钟，如果想微调后仍保持较好的长音频生成能力，建议训练数据里加入一定数量的长音频。 2.同一说话人建议固定一个reference_audio和reference_text。

Aug 28 '25 04:08 rulerman

同一说话人建议固定一个reference_audio和reference_text是在训底座的时候就要这么做吗？那么reference_audio和reference_text的选择有啥依据吗？另外，训练的时候reference_audio部分对应的loss要考虑吗 @xiami2019

Aug 28 '25 07:08 GuangChen2016