GPT-SoVITS issues

使用cuda 11.8, pytorch 2.1.1,python 3.9 时训练出现问题

3

使用cuda 11.8, pytorch 2.1.1,python 3.9 时训练出现问题 ``` 数据集预处理完成 SoVITS训练开始："/root/runtime/applications/ai/vendor/GPT-SoVITS/venv/bin/python" GPT_SoVITS/s2_train.py --config "/root/runtime/applications/ai/vendor/GPT-SoVITS/TEMP/tmp_s2.json" {'__type__': 'update', 'visible': False} {'__type__': 'update', 'visible': True} "/root/runtime/applications/ai/vendor/GPT-SoVITS/venv/bin/python" GPT_SoVITS/s2_train.py --config "/root/runtime/applications/ai/vendor/GPT-SoVITS/TEMP/tmp_s2.json" INFO:jack:{'train': {'log_interval': 100, 'eval_interval': 500, 'seed':...

jackleibest

Windows系统模型训练环节报错

2

在Windows系统上模型训练环节报了如下错误，请问有人遇到过吗： "D:\program\anaconda\FromC\envs\GPTSoVITS\python.exe" GPT_SoVITS/prepare_datasets/1-get-text.py "D:\program\anaconda\FromC\envs\GPTSoVITS\python.exe" GPT_SoVITS/prepare_datasets/1-get-text.py [nltk_data] Error loading averaged_perceptron_tagger: [nltk_data] Error loading averaged_perceptron_tagger: Traceback (most recent call last): File "D:\program\anaconda\FromC\envs\GPTSoVITS\lib\site-packages\transformers\utils\hub.py", line 385, in cached_file Traceback (most recent call last): File...

MedalCollector

fix cmd error

4

git clone 這個專案然後執行點擊這個按鈕 ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/94e86c10-fd49-48f8-ae98-05331651aa71) 會收到錯誤 ``` fix "funasr_asr.py: error: the following arguments are required: -o/--output_folder" ``` ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/cddff1c9-7c3d-4859-b43d-bc0a2802dbcb) 輸出arg如下 ![image](https://github.com/RVC-Boss/GPT-SoVITS/assets/147307373/c4079f58-6f6c-4b5c-a7f4-7f443ec010d8) [這裏](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/webui.py#L202)不應該直接使用+=連接字符串

normalllll

有计划推出一个命令行一键训练和推理的脚本入口么

4

在项目集成中，命令行也是一种常见的方式

leeqia

多音字推理优化

14

新增内容： 1. 使用g2pw进行多音字推理。[g2pW](https://github.com/GitYCC/g2pW) 2. 修改自： PaddleSpeech的g2pw实现[PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech) https://github.com/GitYCC/g2pW/issues/17#issuecomment-1261802805 pypinyin的g2pw实现[pypinyin-g2pW](https://github.com/mozillazg/pypinyin-g2pW) 注意事项： 1. 若g2pw推理出现问题，可使用环境变量is_g2pw=False切换回pypinyin 2. g2pw模型使用PaddleSpeech针对普通话优化版[G2PWModel](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip)，非台湾话原版。支持自动下载模型到pretrained models 3. 需安装OpenCC包 4. 之前多音字训练歪了的模型可能需要重新训练纠正，否则在推理时可能偶发念错

KamioRinn

修改 ASR 工具

9

简要内容 (太长不看版): 1. 重构 ASR 工具, 保留原有功能, 新增识别单文件, 适配 CPU, 并提供更详细的输出信息; 2. 调整 ASR 工具的加载时点和顺序; 3. 调整 WebUI 界面 ASR 部分的布局. 4. WebUI 运行 ASR 前对输入路径和输出路径进行 os.path.normpath, 去掉多余的分隔符, 修复 #481...

SapphireLab

Update es_ES.json

Yuan-ManX

WAV格式文件出现：FileNotFoundError: [Errno 2] No such file or directory: 'logs/sibug/2-name2text-0.txt'报错

10

Intel MacBook Pro(2019款) 16inch i7 9750 显卡：AMD Radeon Pro 5300M 系统版本为MacOS 12.7.3 (21H1015) 切片之后的文件均为.wav后缀依次执行一键三连操作时，点按speech-to-text按钮时出现如下报错： LookupError: ********************************************************************** Resource cmudict not found. Please use the NLTK Downloader to obtain the resource:...

HiSweetie

在gpt訓練的時候遇到以下錯誤

1

"C:\Users\user\Desktop\GPT-SoVITS-beta\runtime\python.exe" GPT_SoVITS/s1_train.py --config_file "C:\Users\user\Desktop\GPT-SoVITS-beta\TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False,...

aaa71541367

In follow-up

尝试加入说话人的特征

2

warning: This code should not be merged directly. 一份简单的尝试代码。当前底模的能力很强，我认为可以不通过训练整个GPT模型或者s2G模型来拟合新的声音特征，而是训练一个例如[64,1024]的说话人特征tensor来注入说话人风格。同时这个tensor应当可以替代prompt作为GPT的生成指向。受制于设备的贫瘠，我简单尝试了加性耦合一个[embedding_dim]的特征向量到GPT的y_emb处（原谅我没能完全看懂代码变量意义，对tts的了解不是很多），然后单独训练speaker_proj和speaker_feat。训练100epoch后进行推理，发现对推理有一定改善。我个人觉得这个思路可能有一定价值，所以做了个pr作为参考，看能不能做出改善。 PS：这个思路和so-vits比较像，但是我训练不了大模型，只能目测一下"拼接到prompt之前"可能会作为音色转换的思路。这个代码属于实验代码，不应当被merge

bwnotfound

GPT-SoVITS
GPT-SoVITS copied to clipboard

Metadata

使用cuda 11.8, pytorch 2.1.1,python 3.9 时训练出现问题

Windows系统模型训练环节报错

fix cmd error

有计划推出一个命令行一键训练和推理的脚本入口么

多音字推理优化

修改 ASR 工具

Update es_ES.json

WAV格式文件出现：FileNotFoundError: [Errno 2] No such file or directory: 'logs/sibug/2-name2text-0.txt'报错

在gpt訓練的時候遇到以下錯誤

尝试加入说话人的特征

← Metadata

Owner

Metadata

GPT-SoVITS GPT-SoVITS copied to clipboard

Metadata

← Metadata

Owner

Metadata

GPT-SoVITS
GPT-SoVITS copied to clipboard