AnonymousmousCoder comments

Results 21 comments of


                                            AnonymousmousCoder

参考音频的长度

我认为是和训练语料和切句结果相关的。底模就是3-10秒训练的，自然对长句效果不好。切完句子，很多都是短句，用长参考音频自然效果更不好。在默认训练数据是最好结果的情况下，我们要做的就是尽量过拟合，去跟训练集类似。以上为猜想

关于采样率

我也很好奇，最后推理生成的音频，我把采样率改的天高，真的有用吗？目前采样率都是sr=16000

API调用

用fast inference分支，把fast inference分支里的infer函数替换之前旧的get tts wav

2月2-4日的改动后的效果实在是太差了

我先是回退到这个版本6410628a5fd17380b5c3bc91750508daccc1184c，依旧很差，阴阳怪气。再回退到更早一点的这个版本ab9849344cb79b8a9842d18426b3321f4b9a07b1，效果很好。

定位到效果变化位于： ...效果差测试 3ebff70b71580ee1f97b3238c9442cbc5aef47c7 效果差测试 9286a27ad3608cf81ef122c3b06a681765e7490e 效果正常测试 dba1a74ccb0cf19a1b4eb93faf11d4ec2b1fc5d7 效果正常 ...效果正常参考音频的文本是（微软tts云泽生成的）："一道闪电划破天际,把整个圣地照耀如白昼一样,经久不息" （云泽男中年不满-0.8，语速-0.85）输入文本是 ‘’‘他不是这里的土著，而是在几个月前穿越过来的。当时，他看似稳如老狗，实际上慌得一批。因为这里，居然是洪荒世界；而且根据日子推算，不久后就是封神榜之战！‘’‘