Lennon-cheng

Results 6 comments of Lennon-cheng

用真实语音文件,转成梅尔谱图,灌到vocoder模型中。发现声码器模型基本没问题,预估问题还是在合成器中吧。 [归档.zip](https://github.com/PaddlePaddle/PaddleSpeech/files/9358826/default.zip) 压缩包中包含了: 原声音文件; 真实音转成mels,直接灌到 vocoder 模型。分别测试了官方的pwg_aishell3;pwg_baker;自己训练的pwg_aishell3; 克隆后的语音; 还想了解下, 1. 语音合成后有后处理的方案,缓解字的清晰度、沙沙等问题吗? 2. 合成器训练,从数据上、调参上有什么经验吗? 我目前是用AIshell3 + 自己的声音,用官方example/aishell3/vc1 中的方式训练。 数据上,之后想尝试用三方的TTS接口生成语音训练。 另外想训练时吧 voice_clone 关掉,排除下是否为声纹模型的问题。

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3 TTS、voice_clone 都可以尝试下开源模型的finetune策略,比自己从零训练效果好很多。

@lym0302 中英文语音合成,代码大概什么时候发出呀。或者中英文语音合成代码,除了 mix_frontend 不同外,还有哪些部分不同呀,谢谢

> triton的实现在配置不足的情况下会引起这样的[问题](https://github.com/openai/triton/pull/1208)。现在这个PR已经被并入triton的主分支,可以尝试使用其[源码](https://github.com/openai/triton)安装 源码安装后是Triton 2.1.0 但是会报如下错误 AttributeError: module 'triton.compiler' has no attribute 'OutOfResources'

> 修改代码 为下文,可跑通 except: # triton.compiler.OutOfResources: return float('inf')