adaptive_voice_conversion VC for Chinese, but result not similar

Hello, I use the pre-trained model you provided to perform voice conversion for Chinese. I checked the results and found that the non-linguistic information of the output file is not similar to the non-linguistic information of the target file. According to the paper, the model should achieve the same effect on all data. How should it be done?

Sep 07 '20 08:09 wyp19930313

中文的你得拿中文数据集重新训练，亲测有效~

Sep 27 '20 11:09 xuexidi

好的好的，多谢，我训练下试试呢

Oct 28 '20 12:10 wyp19930313

用中文数据集训了下，效果和之前一样，请问有什么训练技巧吗？

Dec 01 '20 03:12 wyp19930313

中文的你得拿中文数据集重新训练，亲测有效~

您好，我用中文数据集训练了，效果也是不好，能麻烦宁分享下训练技巧么？

Jan 21 '21 08:01 zhangsong427

中文的你得拿中文数据集重新训练，亲测有效~

您好，我用中文数据集训练了，效果也是不好，能麻烦宁分享下训练技巧么？

@zhangsong427 您好，我用的是AISHELL1数据集训练，用griffin lim得到得音频质量确实很差，所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音，音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果，无法大批量稳定，因为我发现One-Shot没有利用语音的f0信息，导致对于某些语音，音色转换后的语音有些字会跑调~

Jan 21 '21 08:01 xuexidi

中文的你得拿中文数据集重新训练，亲测有效~

您好，我用中文数据集训练了，效果也是不好，能麻烦宁分享下训练技巧么？

@zhangsong427 您好，我用的是AISHELL1数据集训练，用griffin lim得到得音频质量确实很差，所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音，音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果，无法大批量稳定，因为我发现One-Shot没有利用语音的f0信息，导致对于某些语音，音色转换后的语音有些字会跑调~

您好，用AIshell1来训练的话，有测试过不在训练集中的其他数据源比如THCHS-30的音色转换效果吗？AIshell1的数据集只有300来个speaker，训练出来的Speaekr encoder真的能找到unseen speaker的分布吗？谢谢。

Feb 04 '21 07:02 aijianiula0601

中文的你得拿中文数据集重新训练，亲测有效~

我用waveglow vocoder可以正常合成中文语音，但是去合成英文语音就不行了，这是为啥啊，是要重新在英文数据集上训练下吗

Mar 24 '21 03:03 ZengHorace

中文的你得拿中文数据集重新训练，亲测有效~

训练的loss_rec能下降到多少呢

Mar 29 '22 09:03 1nlplearner

中文的你得拿中文数据集重新训练，亲测有效~

您好，我用中文数据集训练了，效果也是不好，能麻烦宁分享下训练技巧么？

@zhangsong427 您好，我用的是AISHELL1数据集训练，用griffin lim得到得音频质量确实很差，所以我自己结合了WaveRNN作为vocoder来由Mel频谱合成语音，音质和音色转换效果还挺不错。

但是我个人认为One-shot+WaveRNN也只能达到demo的效果，无法大批量稳定，因为我发现One-Shot没有利用语音的f0信息，导致对于某些语音，音色转换后的语音有些字会跑调~

请问使用wavernn作为vocoder该怎么训练呢

Apr 13 '22 08:04 1nlplearner

adaptive_voice_conversion adaptive_voice_conversion copied to clipboard

VC for Chinese, but result not similar

adaptive_voice_conversion
adaptive_voice_conversion copied to clipboard