adaptive_voice_conversion icon indicating copy to clipboard operation
adaptive_voice_conversion copied to clipboard

VC for Chinese, but result not similar

Open wyp19930313 opened this issue 4 years ago • 9 comments

Hello, I use the pre-trained model you provided to perform voice conversion for Chinese. I checked the results and found that the non-linguistic information of the output file is not similar to the non-linguistic information of the target file. According to the paper, the model should achieve the same effect on all data. How should it be done?

wyp19930313 avatar Sep 07 '20 08:09 wyp19930313

中文的你得拿中文数据集重新训练,亲测有效~

xuexidi avatar Sep 27 '20 11:09 xuexidi

好的好的,多谢,我训练下试试呢

wyp19930313 avatar Oct 28 '20 12:10 wyp19930313

用中文数据集训了下,效果和之前一样,请问有什么训练技巧吗?

wyp19930313 avatar Dec 01 '20 03:12 wyp19930313

中文的你得拿中文数据集重新训练,亲测有效~

您好,我用中文数据集训练了,效果也是不好,能麻烦宁分享下训练技巧么?

zhangsong427 avatar Jan 21 '21 08:01 zhangsong427

中文的你得拿中文数据集重新训练,亲测有效~

您好,我用中文数据集训练了,效果也是不好,能麻烦宁分享下训练技巧么?

@zhangsong427 您好,我用的是AISHELL1数据集训练,用griffin lim得到得音频质量确实很差,所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音,音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果,无法大批量稳定,因为我发现One-Shot没有利用语音的f0信息,导致对于某些语音,音色转换后的语音有些字会跑调~

xuexidi avatar Jan 21 '21 08:01 xuexidi

中文的你得拿中文数据集重新训练,亲测有效~

您好,我用中文数据集训练了,效果也是不好,能麻烦宁分享下训练技巧么?

@zhangsong427 您好,我用的是AISHELL1数据集训练,用griffin lim得到得音频质量确实很差,所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音,音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果,无法大批量稳定,因为我发现One-Shot没有利用语音的f0信息,导致对于某些语音,音色转换后的语音有些字会跑调~

您好,用AIshell1来训练的话,有测试过不在训练集中的其他数据源比如THCHS-30的音色转换效果吗?AIshell1的数据集只有300来个speaker,训练出来的Speaekr encoder真的能找到unseen speaker的分布吗?谢谢。

aijianiula0601 avatar Feb 04 '21 07:02 aijianiula0601

中文的你得拿中文数据集重新训练,亲测有效~

我用waveglow vocoder可以正常合成中文语音,但是去合成英文语音就不行了,这是为啥啊,是要重新在英文数据集上训练下吗

ZengHorace avatar Mar 24 '21 03:03 ZengHorace

中文的你得拿中文数据集重新训练,亲测有效~

训练的loss_rec能下降到多少呢

1nlplearner avatar Mar 29 '22 09:03 1nlplearner

中文的你得拿中文数据集重新训练,亲测有效~

您好,我用中文数据集训练了,效果也是不好,能麻烦宁分享下训练技巧么?

@zhangsong427 您好,我用的是AISHELL1数据集训练,用griffin lim得到得音频质量确实很差,所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音,音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果,无法大批量稳定,因为我发现One-Shot没有利用语音的f0信息,导致对于某些语音,音色转换后的语音有些字会跑调~

请问使用wavernn作为vocoder该怎么训练呢

1nlplearner avatar Apr 13 '22 08:04 1nlplearner