GPT-SoVITS
GPT-SoVITS copied to clipboard
建议增加关于哈气呼吸声笑声的特殊性标注功能
我在手动清洗数据集的时候遇到了一个问题:当遇到一些文字无法标注的声音例如哈气声,呼吸声,笑声,哭声等等,是否应该保留? 询问DeepSeek后它这么回答我
跟我觉得不行的猜想相符。如果贸然引入这类声音,应该会扰乱合成结果→不可控
然而我注意到它说对于支持的模型,用标签特殊标注这些声音是可行的→也就是说可以做到可控
虽然在绝大多数情况这类声音是用不到的,但请原谅我还是想合成这类声音
也许你可以用 “鉿”来标识笑声,“噁”标识哭。反正就是用一些不常用的字来标识,当然你得手动打标,因为现有的asr,没这功能