AnonymousmousCoder

Results 9 issues of AnonymousmousCoder

我每天都会同步的commits,选择性的去应用更改。 今天我进行测试时,发现同样的底膜+同样的参考音频,效果变差了很多很多。 前几天还是正常的,和参考音频风格和情感都很像。今天的推理结果就变成了一个一个字往外蹦,就像外国人说中文一样。 我认为这个效果变化是由于 text/chinese.py或者inference_webui新加的max\min导致的。

In follow-up

fast_inference_分支已经两周没更新啦!!

todolist

### 我是GPT-SoVITS的忠实粉丝,经过实际使用,我认为完全可以充当有声书的配音演员。 于是乎,我就做了一个以GPT-Sovits为合成工具的有声书AI合成工具。 和微软的TTS一样,后台接受所需合成章节的SSML,形成合成任务队列。 后台依次获得任务,按照底模不同来分组合成。 一段段合成好之后,后端再将音频组合成章节的完整音频,供前端进行下载。 ### 实测发现,最影响生成效果的有: ### 1、对短文本支持不好。尤其是只有几个字的时候,配上哭泣的参考音频更是直接炸。 比如: “先生!小姐!……你救我……救我……他们要将我卖掉,卖掉……我不愿意呵!……救一救我!……” “就是他们……我的姑妈,还有,我的姑父……救一救我罢!好先生!好小姐!……” ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/152621859/c455859b-a3ad-42bc-8b3d-468b0d77dcae) 具体表现就是声音无法跟文字匹配,多字、少字、说的不是字。 **另外在有声书应用场合下:** 切句方式,非常重要。我觉得2-3个子串一切,比4个子串一切,多字少字情况要更好(测试2个子串一切漏字情况最少)【此方法已弃用】。生成音频的zero长度目前是默认0.3,改成0.4~0.6会更符合有声书(因为有声书没字幕,快了耳朵反应不过来,)。"fragment_interval":0.6 ``` @register_method("cut1") def cut1(inp): inp = inp.strip("\n") # 去除字符串开头和结尾的换行符 inps = split(inp) #...

todolist

一旦用上自己的GPT底模,复读和泄露问题还是挺常见的。 能内置个自动审听、重新抽卡功能吗? 出现复读、泄露问题的话,应该用训练步数更小的还是大的GPT模型?

做有声书TTS时,总有一些角色的参考情绪不全,但是刚好其他角色的情绪可能有。 在缺情绪的情况下,要想人物音色相似,只能指望换声了,得到新的参考音频了。 https://github.com/huangxu1991/GPT-SoVITS-VC/blob/main/vc_webui.py 佬们,这个换声能整合进api吗

请问在变声时的参数设置,为什么还要传目标音色的音频? 现在有底模A和对应的参考音频A,底模B和对应的参考音频B 我想让参考音频B的音色变成底模A的音色, 我可以指定底模A后,只上传参考音频B吗? 意思是让底模A 发出音频B的声音,从而换声。 如何只把A音色换成B音色,目前GPT-SOVITS-VC是一定要传参考音频A和B,为什么不能忽略音频A呢,有A底模不够吗? ``` def vc_main(wav_path, text, language, prompt_wav, noise_scale=0.5): """ Voice Conversion wav_path: 待变声的源音频 text: 对应文本 language: 对应语言 prompt_wav: 目标人声 """ ```

可能是训练音频声音就比较小的缘故,有的模型推理出来的声音很小。如何在不写临时文件的情况下,直接修改audio_fragment的音量呢? ``` TTS.py for i, batch in enumerate(audio): for j, audio_fragment in enumerate(batch): max_audio=torch.abs(audio_fragment).max()#简单防止16bit爆音 if max_audio>1: audio_fragment/=max_audio audio_fragment:torch.Tensor = torch.cat([audio_fragment, zero_wav], dim=0) audio[i][j] = audio_fragment.cpu().numpy() ```

目前好像没有上传文件的地方?只有中间一个mp4?会有音轨吗?

fast_inference什么时候支持V2?还是直接v1的代码可以直接加载v2模型? 我试了fast_inference现在推理v2模型无法返回音频 V1和V2是不是只有symbols变了,导致text_embedding变了,其他都是一模一样的?