MOSS-TTSD icon indicating copy to clipboard operation
MOSS-TTSD copied to clipboard

微调数据量大概是多少时长

Open Ranzige opened this issue 4 months ago • 11 comments

你好,感谢你的出色工作,请问多少时长的对话数据可以微调一个比较理想的模型?

Ranzige avatar Aug 22 '25 06:08 Ranzige

感谢关注。MOSS-TTSD的训练使用了约30万小时的中英文对话数据。如果想要在MOSS-TTSD的基础上针对某个说话人的音色进行微调,10分钟左右的数据就可以有比较好的效果。

rulerman avatar Aug 22 '25 07:08 rulerman

@rulerman 感谢回复,了解了,请问10分钟左右的数据,大概需要微调多少个epoch

Ranzige avatar Aug 22 '25 07:08 Ranzige

使用lora微调,50epoch左右

rulerman avatar Aug 22 '25 07:08 rulerman

👌,十分感谢!!!

Ranzige avatar Aug 22 '25 08:08 Ranzige

使用lora微调,50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

GuangChen2016 avatar Aug 25 '25 08:08 GuangChen2016

使用lora微调,50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

rulerman avatar Aug 25 '25 08:08 rulerman

prefix续写是更稳定吗

使用lora微调,50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

GuangChen2016 avatar Aug 25 '25 09:08 GuangChen2016

prefix续写是更稳定吗

使用lora微调,50epoch左右

请问一下用单人数据微调之后是使用spkid还是prefix续写呢

prefix续写

@GuangChen2016 是的,prefix续写会更加稳定

xiami2019 avatar Aug 27 '25 01:08 xiami2019

您好,再问下几个问题哈:

  1. 请问训练数据的平均长度大概是每一条多少秒,数据长度越大是否对于稳定性有帮助呢?
  2. 在准备训练数据的时候,对于同一个说话人,是否需要都指定一句reference_audio和reference_text进行训练呢?也就是对于用一个音色都固定一句作为前缀呢?这么处理是比不固定要好一点吗? "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019

GuangChen2016 avatar Aug 28 '25 04:08 GuangChen2016

您好,再问下几个问题哈:

  1. 请问训练数据的平均长度大概是每一条多少秒,数据长度越大是否对于稳定性有帮助呢?
  2. 在准备训练数据的时候,对于同一个说话人,是否需要都指定一句reference_audio和reference_text进行训练呢?也就是对于用一个音色都固定一句作为前缀呢?这么处理是比不固定要好一点吗? "reference_audio": "/path/to/reference.wav", "reference_text": "[S1]Reference content for voice cloning[S2]Reference content for voice cloning", 谢谢哈 @xiami2019

1.单条平均长度约2分钟。moss_ttsd训练数据是最长16分钟,如果想微调后仍保持较好的长音频生成能力,建议训练数据里加入一定数量的长音频。 2.同一说话人建议固定一个reference_audio和reference_text。

rulerman avatar Aug 28 '25 04:08 rulerman

同一说话人建议固定一个reference_audio和reference_text是在训底座的时候就要这么做吗?那么reference_audio和reference_text的选择有啥依据吗? 另外,训练的时候reference_audio部分对应的loss要考虑吗 @xiami2019

GuangChen2016 avatar Aug 28 '25 07:08 GuangChen2016