MOSS-TTSD 加快推理，克隆相似度

win使用的v100显卡推理大概在RTF:2.5还能加快吗？克隆相似度不怎么好，不过节奏感还是不错还有就是(笑)括号提示词支持哪些很多没效果，并且也一起生成了没过滤掉角色有时候会混乱，本来是s1角色的有时会插入s2发音

Jul 10 '25 07:07 xzw168

感谢关注！目前我们正在适配vllm和sglang来提升推理速度，下个模型版本会增强零样本克隆相似度，同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定，也会有切错的情况，后面我们会开源一个工具自动检测切换准确率~

Jul 10 '25 07:07 xiami2019

感谢关注！目前我们正在适配vllm和sglang来提升推理速度，下个模型版本会增强零样本克隆相似度，同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定，也会有切错的情况，后面我们会开源一个工具自动检测切换准确率~

你好，我试用了这个项目，非常棒，目前我遇到一个问题，1000字左右的对话内容，S1和S2会混淆切换，还有一个问题就是上传的样本最长多少?如果微调可以尽快发布就好了。

Jul 11 '25 08:07 wangaocheng

感谢关注！目前我们正在适配vllm和sglang来提升推理速度，下个模型版本会增强零样本克隆相似度，同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定，也会有切错的情况，后面我们会开源一个工具自动检测切换准确率~

你好，我试用了这个项目，非常棒，目前我遇到一个问题，1000字左右的对话内容，S1和S2会混淆切换，还有一个问题就是上传的样本最长多少?如果微调可以尽快发布就好了。

上传的样本没有限制长度，模型会接着上传的样本续写，也欢迎反馈增加参考样本长度对模型克隆能力的提升。音色切换会小概率出现切换混淆，请尝试重新推理或者调整文本内容~

Jul 11 '25 12:07 xiami2019

感谢关注！目前我们正在适配vllm和sglang来提升推理速度，下个模型版本会增强零样本克隆相似度，同时近期也会支持少样本说话人微调。目前声音事件只有(笑)比较稳定。角色切换v0.5在大部分情况下比较稳定，也会有切错的情况，后面我们会开源一个工具自动检测切换准确率~ 您好，请问现在支持vllm了嘛

Jul 21 '25 11:07 zsy458