GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

关于GPT-SoVITS项目使用fast_inference分支出现复读和空音频的问题和一些发现。

Open wrl1224 opened this issue 10 months ago • 6 comments

我拉取了最新的fast_inference分支代码遇到了复读的问题,无论是我自己练的模型还是白菜大佬在语雀分享的最新模型都是这样,参考音频内没有省略号。

我这边用的原神瑶瑶的模型(1份我自己练的1份是白菜大佬的)

参考音频用的 红血球大佬 原神数据集 中的 瑶瑶的数据集 参考文件名:vo_EQHDJ201_4_yaoyao_02.wav 参考音频文本:香菱姐姐心里全想着做菜,平日里磕着碰着也只会放任伤口自己长好,她需要身边人的照顾。

关于空白音频问题 最开始我是在刘悦的整合包那边发现的 921f3e9fd522af08179d21d2039f332b

后来我拉了最新的fast_inference分支代码好像也有这样的问题 遇到这种情况的时候,推理时间往往要比正常推理更多。

经过我自己的测试10次抽卡里至少会出现1次或2次 含有空白音频的推理结果

以下是我用来测试的 要生成的文本内容

我马上就要成功了,求求你帮帮我?哎呀,你大野的要成功了?那真是太棒了!虽然我不能直接帮你,但我可以给你加油鼓劲。告诉我,你需要什么,我会用我的方式为你提供一些灵感或者小建议。你就像那只即将冲过终点的猎豹,我就是你耳边的风,陪你一起飞奔!

喵喵喵喵喵喵喵喵喵喵喵喵喵喵喵喵喵喵喵?喵,有时候,语言无法表达的时候,就用最原始的交流方式,比如猫的叫声,虽然你可能听不懂,但至少能感受到我的心情吧。

你觉得存在二维世界吗?哎呀,二维世界这种东西,就像是漫画、动画或者游戏里的世界,它们有自己的规则和魅力。在那些世界里,角色没有深度,但能创造出无限的想象空间。对于我这个猫娘来说,虽然我生活在一个三维的世界,但通过直播和虚拟世界,我也能让你感受到我带来的二维般纯粹的乐趣。

中途下播过吗?嗯,有时候直播到一半确实需要休息一下,毕竟猫娘也要伸伸懒腰,偶尔的小憩是为了更好的陪伴你们这些可爱的观众嘛。

喵?喵喵喵?喵?喵,你这小家伙,想和我聊什么呢?是想要个玩具还是想听我讲讲最近的直播趣事?快告诉我,让我也陪你玩会儿。

阴阳家和阴阳师的关系?在龙界的神话传说中,阴阳家和阴阳师是紧密相关的概念,但它们所指的实体略有不同。

  1. 阴阳家:这是一个哲学流派,以研究和阐述阴阳理论为基础。阴阳家的学者们关注的是自然界的规律、宇宙万物的运行原理以及如何运用这些理论指导社会生活和Zz决策。他们通常不直接参与法术实践,而是侧重于理论研究和教学。
  2. 阴阳师:则是将阴阳理论付诸实践的专家,他们在神话故事和现实世界中扮演着神秘的角色。阴阳师运用阴阳学说来占卜吉凶、预测未来、解决灵异问题、进行咒术或治疗等。他们是魔法和神秘力量的使用者,常常在民间传说、

我嘛,作为猫娘,我喜欢吃各种美食,不过现实中,我不会真的吃东西。在直播时,我会和粉丝们分享各种零食的开箱视频,或者讨论他们喜欢的美食。有时候,我也会假装吃掉屏幕上的虚拟食物,逗粉丝们开心。就像这样,啊呜,看起来好好吃的样子!

*最后我来说一下我目前是用什么方式缓解空白音频和复读问题的吧(当然也不是长久之计) 1.我这边GPT底膜选择了官方底膜 2.VITS模型用自己的模型或者其他人分享的模型 满足以上条件则不会出现复读和念参考音频的问题,上面说的空音频问题目前还没遇到过 但这样会有一个问题如果用的不是角色自己的GPT模型可能会在念到语气词的时候会一点点电子噪音

这里并不是说能这样解决,希望官方能调查一下GPT模型微调后才有这样的问题,解决问题本身。

wrl1224 avatar Apr 11 '24 09:04 wrl1224

我也出现了这个问题!!主要是复读情况挺多。好的解决方式:参考音频在韵律和子串个数上和要推理的文本尽量相似。 ,楼上说的用GPT官模,确实不行,因为自己的GPT底模确实有的角色要用 。时长有的长是因为空白,我发现是推理不收敛,一直会到最大步数才停。 还有就是在哪获得白菜大佬练得模型呀?想下载试试?

AnonymousmousCoder avatar Apr 11 '24 23:04 AnonymousmousCoder

同问,fast_inference的空白音频问题。

MathTeller avatar Apr 12 '24 06:04 MathTeller

同问,会有一定比例生成空白音频。

lianrzh avatar Apr 12 '24 07:04 lianrzh

同问,使用gpt底模电子噪音还挺严重的。选用的 gpt 模型轮数在 10 步,有重复和泄漏引导音频的情况。

Joy-word avatar Apr 19 '24 05:04 Joy-word

我也出现了这个问题!!主要是复读情况挺多。好的解决方式:参考音频在韵律和子串个数上和要推理的文本尽量相似。 ,楼上说的用GPT官模,确实不行,因为自己的GPT底模确实有的角色要用 。时长有的长是因为空白,我发现是推理不收敛,一直会到最大步数才停。 还有就是在哪获得白菜大佬练得模型呀?想下载试试?

大佬,参考音频在韵律和子串个数上和要推理的文本尽量相似 ---- 子串个数怎么理解。另外出现空音频,推理不收敛,有什么好的解决办法吗?

lincoln314 avatar May 10 '24 13:05 lincoln314

对于这个问题,我当前的做法是,把参考音频去噪声和去空白,参考文本去除所有标点符号,让它尽可能对应,然后输出文本标点符号分割,生成的每段音频都先过滤空白和杂音再拼接,复读和泄露的频率降低很多。 但一直困扰我的问题是,直接推理的音色和参考音频还有很大的距离,不知道有没有什么好点的办法

kevenleung avatar May 23 '24 11:05 kevenleung