kevin2yl
kevin2yl
>  请问各位这种错误要如何解决 你可以尝试下,训练中文,看是否也有同样的问题;或者你可以试下,逐个操作,并检查你配置的标注和音频路径是不是对的
> 每次选择模型的时候,会更改  按我这样做,然后api可以启动多个 1、2、3、4、5 实测没问题 请教一下,启用某个模型,不是一个全局的行为吗,这样做会不会存在并发时串模型的问题
> *运行项目版本号0306 数据集采用的是红血球大佬提供的原神音频数据集,且标注没有问题. > >  1.大概从百度复制了500字左右的作文,填写到需要合成的文本的框中. 2.切分尝试过两种,分别是(按标点符号切,凑50字一切),这两种均有读着读着就念一下参考音频文本的问题,比如读着读着他就会念(好好放松一下.)这句话是参考音频文本内的话. 3.最开始我怀疑过是不是参考音频的问题,我就换了另外一个5秒的参考音频,但是任然有间接性复读参考音频文本部分内容的可能,读到后面甚至胡言乱语. 4.用的ubuntu系统 环境搭建在conda上 5.使用python3.9 cuda11.8 有使用项目中提供的sh文件来搭建环境. 6.最开始我以为是在ubuntu才有这种问题,后面我换了一台电脑在win10上使用0306也是一样的复读问题 7.不只是一个模型,我也练了其他的角色的模型好像均有这种问题,我觉得不是模型的问题,因为我把0306训练好的模型拿到github主分支的项目上用没遇到复读问题。 8.推理短的文本不容易触发这个复读问题,请尝试使用0306版本的整合包使用百字以上的文本做测试,就可以复现了。 > > 最终我选择放弃0306整合包,去github上拉取仓库中主分支的代码,经过测试貌似这种问题只有0306版本会有,主分支的代码不会有这种复读的问题。 我没有使用0306的整合包,直接使用官方的主分支(2天前下载的),然后在linux上搭建的,推理长文本,也会出现重复读,且偶尔还有吞字的情况
> 0306fix2 现在复读的概率变小了 500字只会出现一次读参考音频结尾几个字的情况,但是新的问题又出现了,貌似会小概率复读需要生成的文本框内的内容,以及出现了吞字现象。 我两天前下载的主分支,自己按文档在linux搭,推理时,依然有你说的问题(重复读、吞字依然存在)