VoxCPM
VoxCPM copied to clipboard
VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning
目前部署的nano-vllm的版本,感觉使用下来有几个问题 1. 因为推理是传入参考文本和目标文本一起的,所以参考文本的结束符号会影响目标文本,使用下来参考文本的英文标点符号不会判定为文本结束,导致参考文本的结尾几个字 2. 克隆出来的语音和参考音色不一致, 甚至性别会变
app.py
app.py start fail.
非常优秀的工作,请问能否提供从头训练的参数配置
This project's documentation is completely wretched (or trash). On macOS, app.py won't even run! The most insane part is that for such a great/powerful project, they don't even bother including...
官方给出了微调相关的代码,已经是一个巨大的进步。 不过数据集的维护也是生态建设的一部分,因此呼吁看到这个issue的朋友们,可以把数据集共享一下。 当然我本人后续也会整理一些自己用到的数据集
英文朗读的问题
### 问题: 1. 为什么中英文混读的时候,英文的劣化这么严重?经常连基本的单词都读不明白。这是这版本目前测试下来最大的问题。 纯英文场景我没测试过,但是在中文中穿插着单词,哪怕这是个常见的标准单词,依然有很高的概率出现读法完全错误。 这是提示语音的问题还是模型的问题? **说明:** 我的提示语音使用sensevoice small识别出来的文本,语音朗读是很标准的普通话。
prompt_wav,prompt_text没有错误,使用nanovllm_voxcpm库进行推理,模型为1.5B版本。 看显卡占用,像是推到了max_generate_length才停下来
We're currently seeing our TTS returning back errors pertaining to `torch compile` and how it's causing the apps not to be able to run with background threads using VoxCPM 1.5....
Thank you for updating finetune support. before diving in to finetuning , could you please share few details that can help the journey 1. can we finetune on any new...