GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

【Fast inference 分支】有关于切分句子单句过长会出现问题,并且增加了一种新的切分方法

Open X-T-E-R opened this issue 1 year ago • 3 comments

如题,当单句过长会导致爆显存 但是现在的代码没有用到split_big_text这个函数

实例:

一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十一二三四五六七八九十

这个用现行的切分方法都会退化成不切

因此重写了split_big_text,并且添加了一个新的切分方法:基于标点凑字切

这样就可以在以大标点如句号、问号划定的基础上,以小标点如逗号为划定的单位,囊括进尽可能多的短句了

X-T-E-R avatar Mar 11 '24 06:03 X-T-E-R

我觉得可以把这个语义切分结合进去效果会更好,不然对于超长的中文,英文都可能从词语中间截断, https://github.com/RVC-Boss/GPT-SoVITS/pull/670

ALEXuH avatar Mar 14 '24 03:03 ALEXuH

在新的代码增加了简单的中英文单词区别功能,

X-T-E-R avatar Mar 14 '24 23:03 X-T-E-R

fast_inference分支的推理部分,我测试使用标点切分的效果会比“四句一切的效果差”,是不是切分的句子太短效果也不好啊

fast_inference分支,因为padding的原因,如果在一个batch中,句子长度差异很大的话,就会复读的情况。

ChasonJiang avatar Mar 23 '24 10:03 ChasonJiang