KamioRinn comments

Results 47 comments of


                                            KamioRinn

如何才能支持中英混合推理？

API已更新 https://github.com/RVC-Boss/GPT-SoVITS/commit/4afecd1950845a974350cd2d8dc8dcf12398fba9

使用fast_inference的api.py时,进行get请求接口调用出现出现

Api暂时没有适配新分支

Update cmd-asr.py

modelscope里的英日模型也有对应的vad、itn模型可以配套，主要问题是英日模型现在仅支持Linux-x86_64运行。

> > 感谢大佬回复，实际上我注意到其他issue里提到了这个问题，所以我也对文本进行了切割，现在一次推理的长度在50字左右，但是我发现即使是一些很短的句子，当句子中有重复部分时会有复读现象比如：手机的屏幕，手机的镜头，手机的重量。这时候生成的音频会是：手机的镜头，手机的镜头，手机的重量，这样子。 > 大量重复句子只能目前调整dpo参数或者尽量分割开，对输出内容高追求可以考虑在text for texts循环推理的时候对输出的音频进行ASR自动对比判断是否重推。训练量可以参考白菜大佬的一些测试https://www.bilibili.com/video/BV1Yu4m1N79m

2月11日的更新引入了引号会导致日文推理丢字的bug

> @Arcgurus #509 给出的一些方案，最好是用相应的语言tag进行区分，但是这意味着要用户自己负责输入内容的可用性，事实上GPT会根据上下文自行调整音素的生成，所以建议添加一个是否进行语言筛选的选项，或者将seg的结果暴露到前端，供调整 @RVC-Boss 其实一开始在这个位置引入LangSegment主要是为了解决日文模式下乱读其他语言数据的问题。还有就是为了同步auto模式（也就是LangSegment实现的）下的英文分切规则。日文会有这次bug应该是由于中文和日文的字符编码相同引发的，LangSegment优先识别为中文。

KamioRinn

如何才能支持中英混合推理？

使用fast_inference的api.py时,进行get请求接口调用出现出现

Update cmd-asr.py

生成语音的时候，可以一大段输入，但是一句一句生成吗？

如何提高语言模型上限？音频分割问题。

如何提高语言模型上限？音频分割问题。

2月11日的更新引入了引号会导致日文推理丢字的bug

吞句，重复，重复引导音频的一个可能原因

Use TTSFRD process text

Use TTSFRD process text