GPT-SoVITS 开始GPT训练时报错system error: 10049和ZeroDivisionError

前面的步骤都没问题，SoVITS模型都训练完了，然后点GPT模型训练时出了问题 "runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs <All keys matched successfully> ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中，该请求的地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中，该请求的地址无效。).

distributed_backend=gloo All distributed processes registered. Starting with 1 processes

semantic_data_len: 0 phoneme_data_len: 2474 Traceback (most recent call last): File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in main(args) File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 116, in main trainer.fit(model, data_module, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 544, in fit call._call_and_handle_interrupt( File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 43, in _call_and_handle_interrupt return trainer.strategy.launcher.launch(trainer_fn, *args, trainer=trainer, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\strategies\launchers\subprocess_script.py", line 102, in launch return function(*args, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 580, in _fit_impl self._run(model, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 950, in _run call._call_setup_hook(self) # allow user to setup lightning_module in accelerator environment File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 92, in _call_setup_hook _call_lightning_datamodule_hook(trainer, "setup", stage=fn) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 179, in _call_lightning_datamodule_hook return fn(*args, **kwargs) File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\data_module.py", line 22, in setup self._train_dataset = Text2SemanticDataset( File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 96, in init self.init_batch() File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 170, in init_batch for _ in range(max(2,int(min_num/leng))): ZeroDivisionError: division by zero

Jan 17 '24 12:01 MysteriousEnder

这个可能是你前面数据集处理的时候有问题，你看下前面三步预处理有没有报错？

Jan 18 '24 05:01 dukesun99

我遇到了类似的问题，是在提取SSL的时候没有提取到合适的音频文件，导致我在 SoVITS模型训练的时候就报该错。我想GPT模型训练报这个错误也是这个原因

Jan 18 '24 13:01 DoubleCake

我遇到了类似的问题，是在提取SSL的时候没有提取到合适的音频文件，导致我在 SoVITS模型训练的时候就报该错。我想GPT模型训练报这个错误也是这个原因使用相同的数据下，4-cnhubert 同样数据为空。

我使用其他的语音素材，这些文件夹中都是有对应的预处理文件的。并且可以完整的进行训练

Jan 18 '24 13:01 DoubleCake

前面的步骤都没问题，SoVITS模型都训练完了，然后点GPT模型训练时出了问题

"runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs

ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中，该请求的地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中，该请求的地址无效。).

distributed_backend=gloo

All distributed processes registered. Starting with 1 processes semantic_data_len: 0 phoneme_data_len: 2474 Traceback (most recent call last): File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in main(args) File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 116, in main trainer.fit(model, data_module, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 544, in fit call._call_and_handle_interrupt( File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 43, in _call_and_handle_interrupt return trainer.strategy.launcher.launch(trainer_fn, *args, trainer=trainer, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\strategies\launchers\subprocess_script.py", line 102, in launch return function(*args, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 580, in _fit_impl self._run(model, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 950, in _run call._call_setup_hook(self) # allow user to setup lightning_module in accelerator environment File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 92, in _call_setup_hook _call_lightning_datamodule_hook(trainer, "setup", stage=fn) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 179, in _call_lightning_datamodule_hook return fn(*args, **kwargs) File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\data_module.py", line 22, in setup self._train_dataset = Text2SemanticDataset( File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 96, in init self.init_batch() File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 170, in init_batch for _ in range(max(2,int(min_num/leng))): ZeroDivisionError: division by zero

引起该错误的原因是 *\6-name2semantic.tsv 文件里没有正确的内容，左侧是对素材进行正确的处理的文档。

Jan 18 '24 13:01 DoubleCake

*\6-name2semantic.tsv 文件里没有正确的内容请问这个问题主要是哪个环节可能会导致的呢？我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的，然后4和5文件夹是空的。

Jan 19 '24 01:01 calebgithub

*\6-name2semantic.tsv 文件里没有正确的内容请问这个问题主要是哪个环节可能会导致的呢？我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的，然后4和5文件夹是空的。

不了解音频处理的逻辑和算法代表的含义，所以我也不太清楚具体的原因，我重新更换了音源暂时避开了这个问题。

Jan 19 '24 02:01 DoubleCake

清理训练任务预处理的结果，然后重新生成数据集格式化文件，注意生成后看看文件对不对。

(GPTSoVits) ➜  first git:(main) ✗ ls -alh
total 36K
drwxr-xr-x 6 zhao users 4.0K Jan 19 10:40 .
drwxr-xr-x 3 zhao users 4.0K Jan 19 10:40 ..
-rw-r--r-- 1 zhao users 2.3K Jan 19 10:40 2-name2text.txt
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 3-bert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 4-cnhubert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 5-wav32k
-rw-r--r-- 1 zhao users 4.1K Jan 19 10:40 6-name2semantic.tsv
drwxr-xr-x 5 zhao users 4.0K Jan 19 10:40 logs_s1

看看6-name2semantic.tsv这个文件不空，里面数据对就能 gpt 微调

Jan 19 '24 02:01 selfboot

清理训练任务预处理的结果，然后重新生成数据集格式化文件，注意生成后看看文件对不对。

(GPTSoVits) ➜  first git:(main) ✗ ls -alh
total 36K
drwxr-xr-x 6 daemonzhao users 4.0K Jan 19 10:40 .
drwxr-xr-x 3 daemonzhao users 4.0K Jan 19 10:40 ..
-rw-r--r-- 1 daemonzhao users 2.3K Jan 19 10:40 2-name2text.txt
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 3-bert
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 4-cnhubert
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 5-wav32k
-rw-r--r-- 1 daemonzhao users 4.1K Jan 19 10:40 6-name2semantic.tsv
drwxr-xr-x 5 daemonzhao users 4.0K Jan 19 10:40 logs_s1

看看6-name2semantic.tsv这个文件不空，里面数据对就能 gpt 微调

是这么个样式，同样的操作，我更换了音源一个可行，一个不可行。看代码是在第一步做预处理的时候，cnhubert模型处理音频以后，不满足条件就直接被return掉了。蛮好奇那一步的意义是什么，在网上搜的解释，没理解这一步的原因。强行注释掉，在后一步的语义提取也会出现无法正确的提取语义编码。

Jan 19 '24 02:01 DoubleCake

遇到了类似的问题，表示对音频要求高。我一个音频可以成功。另外一个音频就不行，遇到了楼上同样的ssl问题

Jan 19 '24 02:01 wickedvalley

遇到了类似的问题，表示对音频要求高。我一个音频可以成功。另外一个音频就不行，遇到了楼上同样的ssl问题

您成功了的音频的编码和格式具体是怎样的？能否用ffmpeg把信息打出来和不行的那个音频对比一下？

Jan 20 '24 12:01 breakstring

@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗？你们的显卡型号是什么？

Jan 22 '24 15:01 RVC-Boss

@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗？你们的显卡型号是什么？

我是3080Ti，把半精度关闭后就可以了。

Jan 23 '24 10:01 breakstring

已修复半精度推理导致2步骤无文件导致训练报错的问题。

Jan 27 '24 07:01 RVC-Boss

GPT-SoVITS GPT-SoVITS copied to clipboard

开始GPT训练时报错system error: 10049和ZeroDivisionError

distributed_backend=gloo All distributed processes registered. Starting with 1 processes

前面的步骤都没问题，SoVITS模型都训练完了，然后点GPT模型训练时出了问题

distributed_backend=gloo

GPT-SoVITS
GPT-SoVITS copied to clipboard