simon
simon
> > 有比较好的解决办法吗?我也遇到了这个问题,会反复出现参考文本语音。 > > 按照标点符号切割待合成文本,同时选用内容较长的参考文本。测试了近300万字,都没遇到过。 参考文本可以是有标点符号分割的多句,只要总长度大于切割后的待合成文本就行了。 没太理解这句话的意思,是说:参考文本要大于切割后的合成文本?我一直以为参考文本尽量少,最好是一句话内的。
存在同样问题,3060T显卡,关闭半精度无效。
> @CloudTronUSA @sipeter @Mrchen116 调研一下你们非16系的卡,半精度跑2步骤的推理,跑出nan的概率高吗? 3060T显卡,音频质量好,语速较快,GPT-SoVITS自带的切割音频后,全部NaN,audacity切片放入output\slicer_opt,有1、2个能通过,修改全精度无效。 重新测试发现,原音频素材有爆音存在,前期将素材的爆音问题处理后,能提高SSL的成功率。 又测试发现,关掉半精度可以解决nan问题,之前可能没有操作有误。
> 是我自己的原因,安装的ffmpeg版本太低造成的,现在已经好了 请问,您是哪个环境下的ffmpeg版本问题导致的?我也是提示:当前分组 default 下对于模型 whisper-1 无可用渠道。我本机xinference ,docker上 xinference 部署whisper都测试,一样的报错。同样的配置在dify可以正常语音输入。
agree. Or it can be added somewhere on the project page.
没有解决呢,我发现了规律,录制的字正腔圆的电子书就不会有这个问题,而随意的播客节目,会大量出现叠字。
> 不用到20分钟,1分钟(vad强切默认值是60s)就能出现吧。我看是ASR模型的问题吧,ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧,我觉得尝试调到20s看看有没有改善。 @lhanzl @xwjiang3 我做了测试,修改max_single_segment_time参数会影响叠字出现的频率,测试下来,我这个测试的音频材料,max_single_segment_time设置为10s(10000)的时候,叠字最少,但这个可能也跟音频本身有关系,没有代表性。