VoxCPM 音色问题

作者你好，如果不用音色克隆每次推理出来的音色都是不一样的，效果确实很好，有没有固定的音色模型。用参考音频进行音色克隆出现很多问题，1、对参考音频的音质很严格。不然会出现吞字和出现莫名奇妙的声音。2、参考音频不变，有时候推理出来的音频效果很好，再次推理可能效果就不行了，会出现语音变长的现象，开头会出现莫名奇怪的声音，有时候还会跟文本内容完全不一致。

Dec 09 '25 10:12 Storyinsea

你好，欢迎试用和反馈！：）

关于吞字声音问题，有可能是参考音频的prompt_text没有正确识别，建议生成前修正参考音频对应的文本内容，这有助于降低该类情况的发生。如有其他稳定性问题，希望您能提供具体的参考音频实例和目标文本，帮助我们更好定位分析和后续优化。
关于模型自发音色的保存，一种可行的措施是保留偏好的高质量生成音频结果或截取其部分片段，作为之后生成的固定参考音频；另外在有一定数据量情况下（如几分钟到几小时），可采取lora微调进行定制化开发，从而让 VoxCPM 收束成稳定的单人音色。

Dec 09 '25 16:12 Labmem-Zhouyx

你好，欢迎试用和反馈！：）

关于吞字声音问题，有可能是参考音频的prompt_text没有正确识别，建议生成前修正参考音频对应的文本内容，这有助于降低该类情况的发生。如有其他稳定性问题，希望您能提供具体的参考音频实例和目标文本，帮助我们更好定位分析和后续优化。

关于模型自发音色的保存，一种可行的措施是保留偏好的高质量生成音频结果或截取其部分片段，作为之后生成的固定参考音频；另外在有一定数据量情况下（如几分钟到几小时），可采取lora微调进行定制化开发，从而让 VoxCPM 收束成稳定的单人音色。

用lora微调的时候，如果觉得训练步数不理想，能接着之前保存的检查点继续训练吗

Jan 03 '26 13:01 HTstu