KamioRinn
KamioRinn
API已更新 https://github.com/RVC-Boss/GPT-SoVITS/commit/4afecd1950845a974350cd2d8dc8dcf12398fba9
Api暂时没有适配新分支
modelscope里的英日模型也有对应的vad、itn模型可以配套,主要问题是英日模型现在仅支持Linux-x86_64运行。
在pr里查找流式输出
控制推理片段长度
> > 感谢大佬回复,实际上我注意到其他issue里提到了这个问题,所以我也对文本进行了切割,现在一次推理的长度在50字左右,但是我发现即使是一些很短的句子,当句子中有重复部分时会有复读现象比如:手机的屏幕,手机的镜头,手机的重量。这时候生成的音频会是:手机的镜头,手机的镜头,手机的重量,这样子。 > 大量重复句子只能目前调整dpo参数或者尽量分割开,对输出内容高追求可以考虑在text for texts循环推理的时候对输出的音频进行ASR自动对比判断是否重推。 训练量可以参考白菜大佬的一些测试https://www.bilibili.com/video/BV1Yu4m1N79m
> @Arcgurus #509 给出的一些方案,最好是用相应的语言tag进行区分,但是这意味着要用户自己负责输入内容的可用性,事实上GPT会根据上下文自行调整音素的生成,所以建议添加一个是否进行语言筛选的选项,或者将seg的结果暴露到前端,供调整 @RVC-Boss 其实一开始在这个位置引入LangSegment主要是为了解决日文模式下乱读其他语言数据的问题。还有就是为了同步auto模式(也就是LangSegment实现的)下的英文分切规则。日文会有这次bug应该是由于中文和日文的字符编码相同引发的,LangSegment优先识别为中文。
LangSegment引发的话,控制台输出的 文本前端处理 信息,应该是错的
该前端日语支持音调信息,但项目模型还不支持,已做忽略处理。
> bert中文留空虽然能用但是效果是会下降的 是的,这个问题比较麻烦。