BOCEAN-FENG
BOCEAN-FENG
"parallel_infer": True, # bool.(optional) whether to use parallel inference. "repetition_penalty": 1.35 # float.(optional) repetition penalty for T2S model. "split_bucket": true, # bool.(optional) whether to split the batch into multiple buckets...
训练素材是1h纯人声素材 目前遇到的问题音频出现概率15%左右,类型如下: ①参考文本出现在生成音频中 ②生成音频出现哈哈哈声 ③生成音频错字 ④生成音频有较长的空白段 目前尝试过 a.时长判断,但是这种情况只对于④有效 b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉 不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的
错误音频指音频中会有'zzzzzzzzzzzzzzzzzzzz'或者'ssssssssssssssssssss'的重复内容,发现与模型无关,我也尝试过用底膜,仍然会报错。与种子也无关,与参考音频无关。 导致错误音频的文本举例:babylon
补充:尝试重复生成50轮同一段音频,发现音频的时长会越来越长,比如'zzzzzzz'的声音会越来越长,考虑到程序有什么内存使用问题? fast_inferenceAPI(api_v2.py)调用,webui直接合成就没有问题,两者保持参数一致,包括种子在内 尝试过五段参考音频,包括底模在内换了三种模型,各种生成参数都调整了 发现babylon会生成babylonzzzzzzzzzzzzzzzzzzzzzzzszsz这种发音,为什么会有这种情况呢?