Yuqian Zhang
Yuqian Zhang
> [@xiami2019](https://github.com/xiami2019) Thanks for the question. We use DNSMOS and force alignment to filter out file level data. In each file, we do not filter out any segments to keep...
新版本已经在进行内部测试中,预计1到2周内发布。
可以把generation_utils.py的第325行注释或者删除
老铁,可以做了如上修改之后 把想笑的地方直接写:[笑] ,想哈哈的地方直接写哈哈就可以了。
目前比较稳定的是 [笑]/[清喉]/[清嗓]/[咳嗽]/[laugh]/[sigh]
请问一下是测了7条不同的文本,有5条都出现了错误。还是上面这一条测试了7次,有5次出现了错误。
我们测试目前v0.7模型的音色在少数情况下会遵循语义,而不是标签。 比如上述文本删除“嗯...我想想啊,”,基本上不会出现切换错误的现象。 我们后续会修复这个问题,让音色完全遵循说话人标签。
> 生成的英文音频会莫名增加“s”,图片中PDF是对话原文,json是根据音频转录的字幕,发现莫名多加了很多s,实际音频中在对应位置确实有读“s”, 非常感谢你的反馈,请问方便把完整的测试样例发给我们吗(邮箱:[[email protected]](mailto:[email protected])),我们后续会做针对性优化。 针对目前出现的这个问题,一个暂时的解决方案是,请把所有用于包裹(而不是用于缩写)的英文单引号(')删除。
> 生成的英文音频会莫名增加“s”,图片中PDF是对话原文,json是根据音频转录的字幕,发现莫名多加了很多s,实际音频中在对应位置确实有读“s”, 你的邮件我们收到了,非常感谢 python inference.py --use_normalize 请问生成的时候加上--use_normalize这个arg了吗,加上--use_normalize能解决大部分这种情况。
生成的语速一般和给的prompt audio的语速相关。目前不支持手动的语速调整。