白菜工厂1145号员工
白菜工厂1145号员工
有报错截图吗
数据集有多长,可以看眼cpu有没有占用
这是除零错误,使用手册的报错合集里有https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e?# 《GPT-SoVITS指南》
这是除零错误,使用手册的报错合集里有https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e?# 《GPT-SoVITS指南》
同样使用三月七模型测试,新分支100%复读参考音频,0217和0306fix版有较小概率复读,0306版100%复读参考音频。0306fix版应该没问题了。不过模型本身确实复读概率有点大。 参考音频:6秒,正常说话 合成文本:本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责.如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE. 切分方式:按英文句号.切
> > 补充一个刚发现的新问题,长文本的情况下,推理出来的音频会有小概率出现吞字问题。 > > 我上实验过程中也发现了,但是所有版本均存在,和参考文本(音频)和合成文本的内容是有关的 这个应该fix版的inference_weui.py中cut1函数写的不对,应该把“split_idx[-1] = None”改为“split_idx.append(None)”,或者 def cut1(inp): inp = inp.strip("\n") inps = split(inp) opt=[] while(len(inps)>4): opt.append(''.join(inps[:4])) inps = inps[4:] if len(inps)>0: opt.append(''.join(inps)) return('\n'.join(opt))
三月七模型没有问题,有问题的是参考音频。用0217,0306,0306fix版本又训练了三个模型。 用“名字是我自己取的,大家也叫我三月、小三月…你呢?你想叫我什么?”这个参考音频的时候都会重复最后一句。 换成“还有和三月七小姐一起执行任务,应该可以完成最终的修行。”这个参考音频就没有复读。 换成“这一路匆匆忙忙、兜兜转转的。有些朋友才刚认识,就要告别了,想想还有些舍不得呢。“这个参考音频会复读第一句。 貌似韵母相同的两个字在一起作为参考音频复读的概率会很大。”你呢?你想叫我什么?“前面三个韵母相同,匆匆 忙忙 兜兜 转转都是有相同韵母在一起。 然后使用无参考文本模式,参考音频是”名字是我自己取的,大家也叫我三月、小三月…你呢?你想叫我什么?“。0306和0217版均未复读。
### **实验记录** ### **目的** • 评估g2pw读对多音字的概率 ### **设置** • 实验将在0217、0217-add-g2pw这两个版本中 • 为排除复读和吞字的干扰,使用底膜推理。使用相同的参考文本、参考音频、合成文本、推理设置,在上述两个版本之间做测试。 • 每组实验均采用相同的推理参数:中文,凑50字一切,top_k=5, top_p=1, temperature=1 • 由于无法确定样本生成的随机性,每个实验抽取5个样本作人耳主观评估。 • 注意:v0217(版本) 中,”按标点切“存在报错问题,故均改为”凑50字一切“。V0217-add-g2pw:https://github.com/KamioRinn/GPT-SoVITS/tree/add-g2pw ### **测试用例** • 参考音频:见附录 • 参考文本:既然罗莎莉亚说足迹上有元素力,用元素视野应该能很清楚地看到吧。 • 合成文本: •...
估计4.5还没做完4.6就出了,所以直接跳过4.5
已更新至2.1版本,共54位角色