PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

[TTS]小样本微调,参考一句PaddleSpeech/examples/other/tts_finetune /tts3/在thchs30数据集上微调,loss降到1.5就不降了,且推理时候能学到微调数据集的声色,但是生成的语音有沙沙的杂声,请问是哪里出现了问题呢

Open balicheng opened this issue 5 months ago • 2 comments

基于PaddleSpeech/examples/other/tts_finetune /tts3/的readme,在中英混合模型上,如果从BZNSYP中选出来3k条语音微调am模型,loss可以下降到0.7左右,且用微调模型合成语音,声音比较清晰,同样用aishell3的数据集的某个人的声音的多条数据微调,推理模型合成的声音也很清晰,没有沙沙的声音; 但是用上述方法,在thchs30上选了250个同一个人的语音进行微调,微调后推理模型合成的语音存在沙沙的声音,又从thchs30中选出1000条同一个人的音色的数据微调,微调后loss仍然在1.5左右,且推理合成的声音中存在沙沙的声音,但是能学到微调数据中的音色。

请问大佬们,上述是哪里出现了问题呢

balicheng avatar Jan 19 '24 06:01 balicheng