CosyVoice 看起来大家对流式语音的生成以及长文字tts的速度不满, 大家有优化后的版本么

参考的issue

速度不满

#755
#739
#742
#723

如何优化批量流式输入输出?

#713
#700

Dec 19 '24 13:12 chg0901

其实大家主要不是不满，而是一开始提及150ms，吊足了胃口，但是最后开出来的版本距离这个值差太多，并且也没有提及任何相关信息，即使这部分不打算开源，也应该说一下

Dec 20 '24 06:12 wanghuihhh

插一句，https://github.com/Plachtaa/VITS-fast-fine-tuning 这个虽然功能比较少，速度很快。用自己训练好的模型，20个汉字左右，第一次进行推理大约要6s(估计主要消耗的时间是模型加载)。换别的文本(同样字数)再次进行推理，1s(或者更少)。之后一直保持1s左右。

中英混合的情况，训练数据需要有英文。然后推理时需要做一些特殊处理(先判断出中英文部分，然后加上语言tag再让模型推理)就能对应了。

Dec 23 '24 14:12 shirubei

插一句，https://github.com/Plachtaa/VITS-fast-fine-tuning 这个虽然功能比较少，速度很快。用自己训练好的模型，20个汉字左右，第一次进行推理大约要6s(估计主要消耗的时间是模型加载)。换别的文本(同样字数)再次进行推理，1s(或者更少)。之后一直保持1s左右。

不足之处就是，无法支持中英混合的情况，碰到英文它只能一个一个字母地读。

感谢回复, 有没有其他性能好一点的, 能带有语气的呢

Jan 01 '25 08:01 chg0901