GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

能让它支持中混英吗?

Open martjay opened this issue 1 year ago • 5 comments

不然英文直接跳过了,真的太可惜啦

martjay avatar Jan 20 '24 00:01 martjay

这个是后面计划完善的地方,我认为这个功能是必要的

RVC-Boss avatar Jan 20 '24 03:01 RVC-Boss

如何才能让它学会模仿目标的停顿呢?

martjay avatar Jan 20 '24 04:01 martjay

这个是后面计划完善的地方,我认为这个功能是必要的

最大的问题还有一个,生成的音频很多时候都读不全,不知道为什么,不知道能不能解决

原文:

古人把它与海棠、牡丹、桂花并列,美称为“玉堂富贵”,不仅能给人以“点破银花玉雪香”的美感,还有“堆银积玉”的富贵;若种植于道路两侧作行道树,盛花时节漫步玉兰花道,可体会到“花中取道、香阵弥漫”的愉悦之感。

https://github.com/RVC-Boss/GPT-SoVITS/assets/44982189/b0c8fdc6-fda4-4454-8009-f0c5dc12cf42

martjay avatar Jan 20 '24 10:01 martjay

这个是把每个逗号回车下一行的效果,还是有点口吃,有时候它会鬼畜,效果很不稳定

https://github.com/RVC-Boss/GPT-SoVITS/assets/44982189/2369256c-a030-4bef-8fc2-783bbdf2868a

martjay avatar Jan 20 '24 11:01 martjay

感觉还是GPT生成的不稳定,多几次就可以了。另外,和引导音频也有关系,我常常遇到的是这里提到的zero prediction

古人把它与海棠、牡丹、桂花并列,美称为“玉堂富贵”,不仅能给人以“点破银花玉雪香”的美感,还有“堆银积玉”的富贵;若种植于道路两侧作行道树,盛花时节漫步玉兰花道,可体会到“花中取道、香阵弥漫”的愉悦之感。

引导音频vo_EQHDJ_talk_19_zhongli_07.wav (原神钟离)

https://github.com/RVC-Boss/GPT-SoVITS/assets/302680/c63c007c-2995-4ef0-9eba-700e438b9472

句首少了个字

upbit avatar Jan 21 '24 14:01 upbit

@upbit 你的参考音频是多长的?建议在5~10s之间,不要超过10秒。另外更新下代码试试,优化了一些效果。

RVC-Boss avatar Jan 28 '24 11:01 RVC-Boss

@upbit 你的参考音频是多长的?建议在5~10s之间,不要超过10秒。另外更新下代码试试,优化了一些效果。

更新后好了很多,换了另一个引导词(7秒),基本没有遇到过吞字的情况。

https://github.com/RVC-Boss/GPT-SoVITS/assets/302680/5a87a954-94c8-4a93-8567-b4a12aead2a5

感谢这么棒的项目~

upbit avatar Jan 28 '24 12:01 upbit

中英混合已支持。

RVC-Boss avatar Jan 28 '24 12:01 RVC-Boss

请问如何实现中英混合

XM233333333 avatar Mar 29 '24 07:03 XM233333333