GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

Results 1028 GPT-SoVITS issues
Sort by recently updated
recently updated
newest added

使用cuda 11.8, pytorch 2.1.1,python 3.9 时训练出现问题 ``` 数据集预处理完成 SoVITS训练开始:"/root/runtime/applications/ai/vendor/GPT-SoVITS/venv/bin/python" GPT_SoVITS/s2_train.py --config "/root/runtime/applications/ai/vendor/GPT-SoVITS/TEMP/tmp_s2.json" {'__type__': 'update', 'visible': False} {'__type__': 'update', 'visible': True} "/root/runtime/applications/ai/vendor/GPT-SoVITS/venv/bin/python" GPT_SoVITS/s2_train.py --config "/root/runtime/applications/ai/vendor/GPT-SoVITS/TEMP/tmp_s2.json" INFO:jack:{'train': {'log_interval': 100, 'eval_interval': 500, 'seed':...

在Windows系统上模型训练环节报了如下错误,请问有人遇到过吗: "D:\program\anaconda\FromC\envs\GPTSoVITS\python.exe" GPT_SoVITS/prepare_datasets/1-get-text.py "D:\program\anaconda\FromC\envs\GPTSoVITS\python.exe" GPT_SoVITS/prepare_datasets/1-get-text.py [nltk_data] Error loading averaged_perceptron_tagger: [nltk_data] Error loading averaged_perceptron_tagger: Traceback (most recent call last): File "D:\program\anaconda\FromC\envs\GPTSoVITS\lib\site-packages\transformers\utils\hub.py", line 385, in cached_file Traceback (most recent call last): File...

git clone 這個專案 然後執行 點擊這個按鈕 ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/94e86c10-fd49-48f8-ae98-05331651aa71) 會收到錯誤 ``` fix "funasr_asr.py: error: the following arguments are required: -o/--output_folder" ``` ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/cddff1c9-7c3d-4859-b43d-bc0a2802dbcb) 輸出arg如下 ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/c4079f58-6f6c-4b5c-a7f4-7f443ec010d8) [這裏](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/webui.py#L202)不應該直接使用+=連接字符串

在项目集成中,命令行也是一种常见的方式

新增内容: 1. 使用g2pw进行多音字推理。[g2pW](https://github.com/GitYCC/g2pW) 2. 修改自: PaddleSpeech的g2pw实现[PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech) https://github.com/GitYCC/g2pW/issues/17#issuecomment-1261802805 pypinyin的g2pw实现[pypinyin-g2pW](https://github.com/mozillazg/pypinyin-g2pW) 注意事项: 1. 若g2pw推理出现问题,可使用环境变量is_g2pw=False切换回pypinyin 2. g2pw模型使用PaddleSpeech针对普通话优化版[G2PWModel](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip),非台湾话原版。支持自动下载模型到pretrained models 3. 需安装OpenCC包 4. 之前多音字训练歪了的模型可能需要重新训练纠正,否则在推理时可能偶发念错

简要内容 (太长不看版): 1. 重构 ASR 工具, 保留原有功能, 新增识别单文件, 适配 CPU, 并提供更详细的输出信息; 2. 调整 ASR 工具的加载时点和顺序; 3. 调整 WebUI 界面 ASR 部分的布局. 4. WebUI 运行 ASR 前对输入路径和输出路径进行 os.path.normpath, 去掉多余的分隔符, 修复 #481...

Intel MacBook Pro(2019款) 16inch i7 9750 显卡:AMD Radeon Pro 5300M 系统版本为MacOS 12.7.3 (21H1015) 切片之后的文件均为.wav后缀 依次执行一键三连操作时,点按speech-to-text按钮时出现如下报错: LookupError: ********************************************************************** Resource cmudict not found. Please use the NLTK Downloader to obtain the resource:...

"C:\Users\user\Desktop\GPT-SoVITS-beta\runtime\python.exe" GPT_SoVITS/s1_train.py --config_file "C:\Users\user\Desktop\GPT-SoVITS-beta\TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False,...

In follow-up

warning: This code should not be merged directly. 一份简单的尝试代码。当前底模的能力很强,我认为可以不通过训练整个GPT模型或者s2G模型来拟合新的声音特征,而是训练一个例如[64,1024]的说话人特征tensor来注入说话人风格。同时这个tensor应当可以替代prompt作为GPT的生成指向。 受制于设备的贫瘠,我简单尝试了加性耦合一个[embedding_dim]的特征向量到GPT的y_emb处(原谅我没能完全看懂代码变量意义,对tts的了解不是很多),然后单独训练speaker_proj和speaker_feat。训练100epoch后进行推理,发现对推理有一定改善。 我个人觉得这个思路可能有一定价值,所以做了个pr作为参考,看能不能做出改善。 PS:这个思路和so-vits比较像,但是我训练不了大模型,只能目测一下"拼接到prompt之前"可能会作为音色转换的思路。 这个代码属于实验代码,不应当被merge