AnonymousmousCoder
AnonymousmousCoder
试了,没必要。 除非你cpu和gpu跑不满。
非常棒的功能!希望能更进一步实现在推理时的参考音频自动筛选:如语音语调、断句的契合度等
> 有打算自己手搓这种功能,加入自动检查和重新生成纠正生成的问题,尽可能实现自动完成大段无误音频推理。 倒是更期待看到emotional, speech to speech 功能出来 看来现在只能自己手搓了
我也出现了这个问题!!主要是复读情况挺多。好的解决方式:参考音频在韵律和子串个数上和要推理的文本尽量相似。 ,楼上说的用GPT官模,确实不行,因为自己的GPT底模确实有的角色要用 。时长有的长是因为空白,我发现是推理不收敛,一直会到最大步数才停。 还有就是在哪获得白菜大佬练得模型呀?想下载试试?
响度匹配部分代码拉下来用了,效果明显,很稳定,未发现bug。我直接用在推理部分了。
> 多字,少字,我发现偶然会多出来语气词,比如哎 然后我的推理音频偶然会有整个句子变成静音。不知道你碰到了吗? 有的!切句后,单次推理字数少时,格外明显。长句子(内含好几个逗号或者句号的)偶尔漏掉开头和末尾。在前面加句号都没用。根据我实际使用,修改后的: (是的,我最终选择加逗号,而不是句号) ``` for text in _texts: # 解决输入目标文本的空行导致报错的问题 if (len(text.strip()) == 0): continue text = text.strip() if (text[0] not in splits and len(get_first(text)) < 6): text...
现在就剩了两个问题啦: 1、短句效果不好问题,即len(text)
> 我也在做类似的项目,基本上已经完工只待发布了,有兴趣可以交流一下.我的WX:yese_5293  @silenceyese 看了一下你的系统,界面很不错。不过你的竟然是离线客户端,前端窗体,后端推理要用户自备,这对用户电脑和对用户自身的要求太高啦。我做的是前后端都是在线的,我觉得这样用户更容易点,点进网址就能直接用
怎么可能有版权问题,会导致有版权问题的是你的参考音频。 官方底模融了这么多根本分不分谁是谁,无法举证的。