GPT-SoVITS
GPT-SoVITS copied to clipboard
开始GPT训练时报错system error: 10049和ZeroDivisionError
前面的步骤都没问题,SoVITS模型都训练完了,然后点GPT模型训练时出了问题 "runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs <All keys matched successfully> ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。).
distributed_backend=gloo All distributed processes registered. Starting with 1 processes
semantic_data_len: 0
phoneme_data_len: 2474
Traceback (most recent call last):
File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in
这个可能是你前面数据集处理的时候有问题,你看下前面三步预处理有没有报错?
我遇到了类似的问题,是在提取SSL的时候没有提取到合适的音频文件,导致我在 SoVITS模型训练的时候就报该错。
我想GPT模型训练报这个错误也是这个原因
我遇到了类似的问题,是在提取SSL的时候没有提取到合适的音频文件,导致我在 SoVITS模型训练的时候就报该错。 我想GPT模型训练报这个错误也是这个原因
使用相同的数据下,4-cnhubert 同样数据为空。
我使用其他的语音素材,这些文件夹中都是有 对应的预处理文件的。并且可以完整的进行训练
前面的步骤都没问题,SoVITS模型都训练完了,然后点GPT模型训练时出了问题
"runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs
ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。).
distributed_backend=gloo
All distributed processes registered. Starting with 1 processes semantic_data_len: 0 phoneme_data_len: 2474 Traceback (most recent call last): File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in main(args) File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 116, in main trainer.fit(model, data_module, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 544, in fit call._call_and_handle_interrupt( File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 43, in _call_and_handle_interrupt return trainer.strategy.launcher.launch(trainer_fn, *args, trainer=trainer, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\strategies\launchers\subprocess_script.py", line 102, in launch return function(*args, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 580, in _fit_impl self._run(model, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 950, in _run call._call_setup_hook(self) # allow user to setup lightning_module in accelerator environment File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 92, in _call_setup_hook _call_lightning_datamodule_hook(trainer, "setup", stage=fn) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 179, in _call_lightning_datamodule_hook return fn(*args, **kwargs) File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\data_module.py", line 22, in setup self._train_dataset = Text2SemanticDataset( File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 96, in init self.init_batch() File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 170, in init_batch for _ in range(max(2,int(min_num/leng))): ZeroDivisionError: division by zero
引起该错误的原因是 *\6-name2semantic.tsv 文件里没有正确的内容,左侧是对素材进行正确的处理的文档。
*\6-name2semantic.tsv 文件里没有正确的内容
请问这个问题主要是哪个环节可能会导致的呢?我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的,然后4和5文件夹是空的。
*\6-name2semantic.tsv 文件里没有正确的内容 请问这个问题主要是哪个环节可能会导致的呢?我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的,然后4和5文件夹是空的。
不了解音频处理的逻辑和算法代表的含义,所以我也不太清楚具体的原因,我重新更换了音源暂时避开了这个问题。
清理训练任务预处理的结果,然后重新生成数据集格式化文件,注意生成后看看文件对不对。
(GPTSoVits) ➜ first git:(main) ✗ ls -alh
total 36K
drwxr-xr-x 6 zhao users 4.0K Jan 19 10:40 .
drwxr-xr-x 3 zhao users 4.0K Jan 19 10:40 ..
-rw-r--r-- 1 zhao users 2.3K Jan 19 10:40 2-name2text.txt
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 3-bert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 4-cnhubert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 5-wav32k
-rw-r--r-- 1 zhao users 4.1K Jan 19 10:40 6-name2semantic.tsv
drwxr-xr-x 5 zhao users 4.0K Jan 19 10:40 logs_s1
看看6-name2semantic.tsv这个文件不空,里面数据对就能 gpt 微调
清理训练任务预处理的结果,然后重新生成数据集格式化文件,注意生成后看看文件对不对。
(GPTSoVits) ➜ first git:(main) ✗ ls -alh total 36K drwxr-xr-x 6 daemonzhao users 4.0K Jan 19 10:40 . drwxr-xr-x 3 daemonzhao users 4.0K Jan 19 10:40 .. -rw-r--r-- 1 daemonzhao users 2.3K Jan 19 10:40 2-name2text.txt drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 3-bert drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 4-cnhubert drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 5-wav32k -rw-r--r-- 1 daemonzhao users 4.1K Jan 19 10:40 6-name2semantic.tsv drwxr-xr-x 5 daemonzhao users 4.0K Jan 19 10:40 logs_s1
看看6-name2semantic.tsv这个文件不空,里面数据对就能 gpt 微调
是这么个样式,同样的操作,我更换了音源一个可行,一个不可行。 看代码是在 第一步做预处理的时候,cnhubert模型处理音频以后,不满足条件就直接被return掉了。蛮好奇那一步的意义是什么,在网上搜的解释,没理解这一步的原因。 强行注释掉,在后一步的语义提取也会出现无法正确的提取语义编码。
遇到了类似的问题,表示对音频要求高。我一个音频可以成功。另外一个音频就不行,遇到了楼上同样的ssl问题
遇到了类似的问题,表示对音频要求高。我一个音频可以成功。另外一个音频就不行,遇到了楼上同样的ssl问题
您成功了的音频的编码和格式具体是怎样的?能否用ffmpeg把信息打出来和不行的那个音频对比一下?
@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗?你们的显卡型号是什么?
@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗?你们的显卡型号是什么?
我是3080Ti,把半精度关闭后就可以了。
已修复半精度推理导致2步骤无文件导致训练报错的问题。