AnonymousmousCoder

Results 21 comments of AnonymousmousCoder

我认为是和训练语料和切句结果相关的。底模就是3-10秒训练的,自然对长句效果不好。切完句子,很多都是短句,用长参考音频自然效果更不好。在默认训练数据是最好结果的情况下,我们要做的就是尽量过拟合,去跟训练集类似。 以上为猜想

我也很好奇,最后推理生成的音频,我把采样率改的天高,真的有用吗?目前采样率都是sr=16000

用fast inference分支,把fast inference分支里的infer函数替换之前旧的get tts wav

我同时在windows和linux上进行了测试,效果真的变差了很多

我先是回退到这个版本6410628a5fd17380b5c3bc91750508daccc1184c,依旧很差,阴阳怪气。 再回退到更早一点的这个版本ab9849344cb79b8a9842d18426b3321f4b9a07b1,效果很好。

定位到效果变化位于: ...效果差 测试 3ebff70b71580ee1f97b3238c9442cbc5aef47c7 效果差 测试 9286a27ad3608cf81ef122c3b06a681765e7490e 效果正常 测试 dba1a74ccb0cf19a1b4eb93faf11d4ec2b1fc5d7 效果正常 ...效果正常 参考音频的文本是 (微软tts云泽生成的):"一道闪电划破天际,把整个圣地 照耀如白昼一样,经久不息" (云泽 男中年 不满-0.8, 语速-0.85) 输入文本是 ‘’‘他不是这里的土著,而是在几个月前穿越过来的。 当时,他看似稳如老狗,实际上慌得一批。 因为这里,居然是洪荒世界;而且根据日子推算,不久后就是封神榜之战!‘’‘

> 模型是默认的zero shot是吗? 是的,模型就是官方默认的。输入和输出语言选项都是中文,没有改动。使用的推理webui

> > > 模型是默认的zero shot是吗? > > > > > > 是的,模型就是官方默认的。 输入和输出语言选项都是中文,没有改动。 使用的推理webui > > 朋友 你目前最新稳定版本是9286a27? 是的

> 那现在怎么整?应该用哪个模型? 经我个人用例测试,我觉得最好的版本是 ab9849344cb79b8a9842d18426b3321f4b9a07b1,我用云泽测,克隆效果简直一摸一样。