AnonymousmousCoder comments

Results 21 comments of


                                            AnonymousmousCoder

添加一个参考音频筛选工具

非常棒的功能！希望能更进一步实现在推理时的参考音频自动筛选：如语音语调、断句的契合度等

为避免复读和泄露，能加个自动审听重抽卡功能吗？

> 有打算自己手搓这种功能，加入自动检查和重新生成纠正生成的问题，尽可能实现自动完成大段无误音频推理。倒是更期待看到emotional, speech to speech 功能出来看来现在只能自己手搓了

关于GPT-SoVITS项目使用fast_inference分支出现复读和空音频的问题和一些发现。

我也出现了这个问题！！主要是复读情况挺多。好的解决方式：参考音频在韵律和子串个数上和要推理的文本尽量相似。，楼上说的用GPT官模，确实不行，因为自己的GPT底模确实有的角色要用。时长有的长是因为空白，我发现是推理不收敛，一直会到最大步数才停。还有就是在哪获得白菜大佬练得模型呀？想下载试试？

将音频切分更改为fap的音频切分与响度匹配,以及完成剩余的i18n

响度匹配部分代码拉下来用了，效果明显，很稳定，未发现bug。我直接用在推理部分了。

> 多字，少字，我发现偶然会多出来语气词，比如哎然后我的推理音频偶然会有整个句子变成静音。不知道你碰到了吗？有的！切句后，单次推理字数少时，格外明显。长句子（内含好几个逗号或者句号的）偶尔漏掉开头和末尾。在前面加句号都没用。根据我实际使用，修改后的: （是的，我最终选择加逗号，而不是句号） ``` for text in _texts: # 解决输入目标文本的空行导致报错的问题 if (len(text.strip()) == 0): continue text = text.strip() if (text[0] not in splits and len(get_first(text)) < 6): text...

在用作有声书合成生产力工具时，遇到的系列问题

现在就剩了两个问题啦： 1、短句效果不好问题，即len(text)

在用作有声书合成生产力工具时，遇到的系列问题

> 我也在做类似的项目,基本上已经完工只待发布了,有兴趣可以交流一下.我的WX:yese_5293 ![image](https://private-user-images.githubusercontent.com/48216464/325533316-39ea06af-d840-4bd3-88b0-fb212d0130a3.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTU1NTY3ODgsIm5iZiI6MTcxNTU1NjQ4OCwicGF0aCI6Ii80ODIxNjQ2NC8zMjU1MzMzMTYtMzllYTA2YWYtZDg0MC00YmQzLTg4YjAtZmIyMTJkMDEzMGEzLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA1MTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNTEyVDIzMjgwOFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTczODAyMDViZjg3YWNmODY0OTkzOTUxYWMzOWQ0OTU4NzgyNDNmYWU0YmFiMWZhNDhjZTJjOTRhMmE3ZjI5M2MmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.AxympoQ_SSRrDqZAf5R1lvqR_L2qEOFm166eGh_fioA) @silenceyese 看了一下你的系统，界面很不错。不过你的竟然是离线客户端，前端窗体，后端推理要用户自备，这对用户电脑和对用户自身的要求太高啦。我做的是前后端都是在线的，我觉得这样用户更容易点，点进网址就能直接用

请问存在版权方面的问题吗？

怎么可能有版权问题，会导致有版权问题的是你的参考音频。官方底模融了这么多根本分不分谁是谁，无法举证的。

固定 seed，生成语音是否吞句貌似与 vits 模型与 gpt 模型都相关

支持继续这个实验