看起来大家对流式语音的生成以及长文字tts的速度不满, 大家有优化后的版本么
参考的issue
速度不满
- #755
- #739
- #742
- #723
如何优化批量流式输入输出?
- #713
- #700
其实大家主要不是不满,而是一开始提及150ms,吊足了胃口,但是最后开出来的版本距离这个值差太多,并且也没有提及任何相关信息,即使这部分不打算开源,也应该说一下
插一句,https://github.com/Plachtaa/VITS-fast-fine-tuning 这个虽然功能比较少,速度很快。 用自己训练好的模型,20个汉字左右,第一次进行推理大约要6s(估计主要消耗的时间是模型加载)。 换别的文本(同样字数)再次进行推理,1s(或者更少)。之后一直保持1s左右。
中英混合的情况,训练数据需要有英文。然后推理时需要做一些特殊处理(先判断出中英文部分,然后加上语言tag再让模型推理)就能对应了。
插一句,https://github.com/Plachtaa/VITS-fast-fine-tuning 这个虽然功能比较少,速度很快。 用自己训练好的模型,20个汉字左右,第一次进行推理大约要6s(估计主要消耗的时间是模型加载)。 换别的文本(同样字数)再次进行推理,1s(或者更少)。之后一直保持1s左右。
不足之处就是,无法支持中英混合的情况,碰到英文它只能一个一个字母地读。
感谢回复, 有没有其他性能好一点的, 能带有语气的呢
其实主要大家不是不满,而是一开始回调150ms,吊足了胃口,但是最后开出来的版本距离这个值差太多,而且也没有提及任何相关信息,即使这部分不打算开源,也应该说一下
速度太慢了,贼慢
我拿到首包要12秒左右,你们也是这么慢吗
蹲
我拿到首包要12秒左右,你们也是这么慢吗
inference one shot是不是没加stream=True
我拿到首包要12秒左右,你们也是这么慢吗
inference one shot是不是没加stream=True
多谢大哥,确实没开。现在首包5秒左右了,但是流式的效果不是很好,会有明显卡顿不流畅。
要自己加线程的代码把
欢迎大家测试优化该项目,使用vllm加速llm部分的推理 https://github.com/qi-hua/async_cosyvoice
mark
mark
mark
mark
非vLLM 版本流式输出效果不降,LLM推理大概610ms,flow开启trt190ms,听到第一段Speech大概810ms。
非vLLM 版本流式输出效果不降,LLM推理大概610ms,flow开启trt190ms,听到第一段Speech大概810ms。
请问一下用的什么硬件配置,有没有教程?
@tiaotiaosong A100哦,按官方教程稍微改改就行
我拿到首包要12秒左右,你们也是这么慢吗