CloudTron
CloudTron
@selfboot 参考我在这里发的: https://github.com/RVC-Boss/GPT-SoVITS/issues/51#issuecomment-1901920999
确实。主要是合成有一定的电子噪音和GPT喜欢漏字或者错字,朗读的问题也有但是我训练数据比较多所以还是不太明显的。在电子噪音这方面,还是BV2比较强(原神那个几乎没有),但语气语调还是这个厉害
同样的问题,会出现漏字吞字或者加字的情况
更逆天的是,我的参考那里抽了一段warma的语音:”我先试一下啊,就是为了方便倒回来之后可以念的比较顺利,所以我应该念的慢一点点就是这样。“ 然后在真正合成的时候,它自己在我的文本前加上了 “我应该念的慢一点点就是这样” 并且后面的语音真的念的明显比之前的慢......
@ADKcodeXD 蛮多的,我觉得可能反而是太多了 不过根据我这个观察到的现象,有没有可能我们可以用一个更大的GPT模型来直接融合 Language Model 和 TTS Model? 我们或许可以训练/finetune 一个LLM来直接输出 语音合成器 想要的格式,同时也能让GPT学习角色的语气和说话风格 以后把GPT4等作为大脑进行推理和指令中枢,然后用这个特殊训练过的 LLM 作为和人交互的语音模块 GPT4 输入抽象的 ”想法“ 到这个模块里 然后这个模块直接生成和外界交互的风格化回应 关于warma的模型,我现在准备跑第二锅看看跑完我发上来
还好 反正都要一起运行的了,不如直接合一起 大不了就分开两张卡跑 或者上48G的那种卡
In bot.py add this line before `at_match = self.AT_PATTERN.match(str(msg['content']))`: `msg['content'] = str(msg['content'])` so that part should look like this after the fix: ``` if '@chatroom' in msg['wxid']: msg['roomid'] = msg['wxid']...
@wuxin1030 @simonwanghub @ChisBread