MOSS-TTSD icon indicating copy to clipboard operation
MOSS-TTSD copied to clipboard

加快推理,克隆相似度

Open xzw168 opened this issue 5 months ago • 4 comments

win使用的v100显卡推理大概在RTF:2.5还能加快吗? 克隆相似度不怎么好,不过节奏感还是不错 还有就是(笑)括号提示词支持哪些很多没效果,并且也一起生成了没过滤掉 角色有时候会混乱,本来是s1角色的有时会插入s2发音

xzw168 avatar Jul 10 '25 07:07 xzw168

感谢关注!目前我们正在适配vllm和sglang来提升推理速度,下个模型版本会增强零样本克隆相似度,同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定,也会有切错的情况,后面我们会开源一个工具自动检测切换准确率~

xiami2019 avatar Jul 10 '25 07:07 xiami2019

感谢关注!目前我们正在适配vllm和sglang来提升推理速度,下个模型版本会增强零样本克隆相似度,同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定,也会有切错的情况,后面我们会开源一个工具自动检测切换准确率~

你好,我试用了这个项目,非常棒,目前我遇到一个问题,1000字左右的对话内容,S1和S2会混淆切换,还有一个问题就是上传的样本最长多少?如果微调可以尽快发布就好了。

wangaocheng avatar Jul 11 '25 08:07 wangaocheng

感谢关注!目前我们正在适配vllm和sglang来提升推理速度,下个模型版本会增强零样本克隆相似度,同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定,也会有切错的情况,后面我们会开源一个工具自动检测切换准确率~

你好,我试用了这个项目,非常棒,目前我遇到一个问题,1000字左右的对话内容,S1和S2会混淆切换,还有一个问题就是上传的样本最长多少?如果微调可以尽快发布就好了。

上传的样本没有限制长度,模型会接着上传的样本续写,也欢迎反馈增加参考样本长度对模型克隆能力的提升。 音色切换会小概率出现切换混淆,请尝试重新推理或者调整文本内容~

xiami2019 avatar Jul 11 '25 12:07 xiami2019

感谢关注!目前我们正在适配vllm和sglang来提升推理速度,下个模型版本会增强零样本克隆相似度,同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定,也会有切错的情况,后面我们会开源一个工具自动检测切换准确率~ 您好,请问现在支持vllm了嘛

zsy458 avatar Jul 21 '25 11:07 zsy458