AnonymousmousCoder issues

Results 9 issues of


                                            AnonymousmousCoder

2月2-4日的改动后的效果实在是太差了

我每天都会同步的commits，选择性的去应用更改。今天我进行测试时，发现同样的底膜+同样的参考音频，效果变差了很多很多。前几天还是正常的，和参考音频风格和情感都很像。今天的推理结果就变成了一个一个字往外蹦，就像外国人说中文一样。我认为这个效果变化是由于 text/chinese.py或者inference_webui新加的max\min导致的。

In follow-up

请问什么时候和并fast_inference_分支到master？

fast_inference_分支已经两周没更新啦！！

todolist

### 我是GPT-SoVITS的忠实粉丝，经过实际使用，我认为完全可以充当有声书的配音演员。于是乎，我就做了一个以GPT-Sovits为合成工具的有声书AI合成工具。和微软的TTS一样，后台接受所需合成章节的SSML，形成合成任务队列。后台依次获得任务，按照底模不同来分组合成。一段段合成好之后，后端再将音频组合成章节的完整音频，供前端进行下载。 ### 实测发现，最影响生成效果的有： ### 1、对短文本支持不好。尤其是只有几个字的时候，配上哭泣的参考音频更是直接炸。比如： “先生！小姐！……你救我……救我……他们要将我卖掉，卖掉……我不愿意呵！……救一救我！……” “就是他们……我的姑妈，还有，我的姑父……救一救我罢！好先生！好小姐！……” ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/152621859/c455859b-a3ad-42bc-8b3d-468b0d77dcae) 具体表现就是声音无法跟文字匹配，多字、少字、说的不是字。 **另外在有声书应用场合下：** 切句方式，非常重要。我觉得2-3个子串一切，比4个子串一切，多字少字情况要更好（测试2个子串一切漏字情况最少）【此方法已弃用】。生成音频的zero长度目前是默认0.3，改成0.4~0.6会更符合有声书（因为有声书没字幕，快了耳朵反应不过来，）。"fragment_interval":0.6 ``` @register_method("cut1") def cut1(inp): inp = inp.strip("\n") # 去除字符串开头和结尾的换行符 inps = split(inp) #...

todolist

为避免复读和泄露，能加个自动审听重抽卡功能吗？

一旦用上自己的GPT底模，复读和泄露问题还是挺常见的。能内置个自动审听、重新抽卡功能吗？出现复读、泄露问题的话，应该用训练步数更小的还是大的GPT模型？

参考音频的情绪不够用，不得不期待一波fast_inference变声了

做有声书TTS时，总有一些角色的参考情绪不全，但是刚好其他角色的情绪可能有。在缺情绪的情况下，要想人物音色相似,只能指望换声了，得到新的参考音频了。 https://github.com/huangxu1991/GPT-SoVITS-VC/blob/main/vc_webui.py 佬们，这个换声能整合进api吗

请问在变声时的参数设置，为什么还要传目标音色的音频？

请问在变声时的参数设置，为什么还要传目标音色的音频？现在有底模A和对应的参考音频A，底模B和对应的参考音频B 我想让参考音频B的音色变成底模A的音色，我可以指定底模A后，只上传参考音频B吗？意思是让底模A 发出音频B的声音，从而换声。如何只把A音色换成B音色，目前GPT-SOVITS-VC是一定要传参考音频A和B，为什么不能忽略音频A呢，有A底模不够吗？ ``` def vc_main(wav_path, text, language, prompt_wav, noise_scale=0.5): """ Voice Conversion wav_path: 待变声的源音频 text: 对应文本 language: 对应语言 prompt_wav: 目标人声 """ ```

如何调整合成音频的音量？

可能是训练音频声音就比较小的缘故，有的模型推理出来的声音很小。如何在不写临时文件的情况下，直接修改audio_fragment的音量呢？ ``` TTS.py for i, batch in enumerate(audio): for j, audio_fragment in enumerate(batch): max_audio=torch.abs(audio_fragment).max()#简单防止16bit爆音 if max_audio>1: audio_fragment/=max_audio audio_fragment:torch.Tensor = torch.cat([audio_fragment, zero_wav], dim=0) audio[i][j] = audio_fragment.cpu().numpy() ```

非常好的项目！请问怎么上传音视频文件呀？

目前好像没有上传文件的地方？只有中间一个mp4？会有音轨吗？

fast_inference什么时候支持V2？还是直接v1的代码可以直接加载v2模型？

fast_inference什么时候支持V2？还是直接v1的代码可以直接加载v2模型？我试了fast_inference现在推理v2模型无法返回音频 V1和V2是不是只有symbols变了，导致text_embedding变了，其他都是一模一样的？