GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

开始GPT训练时报错system error: 10049和ZeroDivisionError

Open MysteriousEnder opened this issue 1 year ago • 12 comments

前面的步骤都没问题,SoVITS模型都训练完了,然后点GPT模型训练时出了问题 "runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs <All keys matched successfully> ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。).

distributed_backend=gloo All distributed processes registered. Starting with 1 processes

semantic_data_len: 0 phoneme_data_len: 2474 Traceback (most recent call last): File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in main(args) File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 116, in main trainer.fit(model, data_module, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 544, in fit call._call_and_handle_interrupt( File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 43, in _call_and_handle_interrupt return trainer.strategy.launcher.launch(trainer_fn, *args, trainer=trainer, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\strategies\launchers\subprocess_script.py", line 102, in launch return function(*args, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 580, in _fit_impl self._run(model, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 950, in _run call._call_setup_hook(self) # allow user to setup lightning_module in accelerator environment File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 92, in _call_setup_hook _call_lightning_datamodule_hook(trainer, "setup", stage=fn) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 179, in _call_lightning_datamodule_hook return fn(*args, **kwargs) File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\data_module.py", line 22, in setup self._train_dataset = Text2SemanticDataset( File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 96, in init self.init_batch() File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 170, in init_batch for _ in range(max(2,int(min_num/leng))): ZeroDivisionError: division by zero

MysteriousEnder avatar Jan 17 '24 12:01 MysteriousEnder

这个可能是你前面数据集处理的时候有问题,你看下前面三步预处理有没有报错?

dukesun99 avatar Jan 18 '24 05:01 dukesun99

我遇到了类似的问题,是在提取SSL的时候没有提取到合适的音频文件,导致我在 SoVITS模型训练的时候就报该错。 我想GPT模型训练报这个错误也是这个原因 image

DoubleCake avatar Jan 18 '24 13:01 DoubleCake

我遇到了类似的问题,是在提取SSL的时候没有提取到合适的音频文件,导致我在 SoVITS模型训练的时候就报该错。 我想GPT模型训练报这个错误也是这个原因 image 使用相同的数据下,4-cnhubert 同样数据为空。

我使用其他的语音素材,这些文件夹中都是有 对应的预处理文件的。并且可以完整的进行训练

DoubleCake avatar Jan 18 '24 13:01 DoubleCake

前面的步骤都没问题,SoVITS模型都训练完了,然后点GPT模型训练时出了问题

"runtime\python" GPT_SoVITS/s1_train.py --config_file "TEMP/tmp_s1.yaml" Seed set to 1234 Using 16bit Automatic Mixed Precision (AMP) GPU available: True (cuda), used: True TPU available: False, using: 0 TPU cores IPU available: False, using: 0 IPUs HPU available: False, using: 0 HPUs

ckpt_path: None [rank: 0] Seed set to 1234 Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/1 [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。). [W C:\actions-runner_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\distributed\c10d\socket.cpp:601] [c10d] The client socket has failed to connect to [localhost.sangfor.com.cn]:56564 (system error: 10049 - 在其上下文中,该请求的 地址无效。).

distributed_backend=gloo

All distributed processes registered. Starting with 1 processes semantic_data_len: 0 phoneme_data_len: 2474 Traceback (most recent call last): File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 139, in main(args) File "F:\AI\GPT-SoVITS\GPT_SoVITS\s1_train.py", line 116, in main trainer.fit(model, data_module, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 544, in fit call._call_and_handle_interrupt( File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 43, in _call_and_handle_interrupt return trainer.strategy.launcher.launch(trainer_fn, *args, trainer=trainer, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\strategies\launchers\subprocess_script.py", line 102, in launch return function(*args, **kwargs) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 580, in _fit_impl self._run(model, ckpt_path=ckpt_path) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 950, in _run call._call_setup_hook(self) # allow user to setup lightning_module in accelerator environment File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 92, in _call_setup_hook _call_lightning_datamodule_hook(trainer, "setup", stage=fn) File "F:\AI\GPT-SoVITS\runtime\lib\site-packages\pytorch_lightning\trainer\call.py", line 179, in _call_lightning_datamodule_hook return fn(*args, **kwargs) File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\data_module.py", line 22, in setup self._train_dataset = Text2SemanticDataset( File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 96, in init self.init_batch() File "F:\AI\GPT-SoVITS\GPT_SoVITS\AR\data\dataset.py", line 170, in init_batch for _ in range(max(2,int(min_num/leng))): ZeroDivisionError: division by zero

引起该错误的原因是 *\6-name2semantic.tsv 文件里没有正确的内容,左侧是对素材进行正确的处理的文档。 image

DoubleCake avatar Jan 18 '24 13:01 DoubleCake

*\6-name2semantic.tsv 文件里没有正确的内容 请问这个问题主要是哪个环节可能会导致的呢?我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的,然后4和5文件夹是空的。 image

calebgithub avatar Jan 19 '24 01:01 calebgithub

*\6-name2semantic.tsv 文件里没有正确的内容 请问这个问题主要是哪个环节可能会导致的呢?我的也是6-name2semantic.tsv文件夹是你左边显示的那种空的,然后4和5文件夹是空的。 image

不了解音频处理的逻辑和算法代表的含义,所以我也不太清楚具体的原因,我重新更换了音源暂时避开了这个问题。

DoubleCake avatar Jan 19 '24 02:01 DoubleCake

清理训练任务预处理的结果,然后重新生成数据集格式化文件,注意生成后看看文件对不对。

(GPTSoVits) ➜  first git:(main) ✗ ls -alh
total 36K
drwxr-xr-x 6 zhao users 4.0K Jan 19 10:40 .
drwxr-xr-x 3 zhao users 4.0K Jan 19 10:40 ..
-rw-r--r-- 1 zhao users 2.3K Jan 19 10:40 2-name2text.txt
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 3-bert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 4-cnhubert
drwxr-xr-x 2 zhao users 4.0K Jan 19 10:40 5-wav32k
-rw-r--r-- 1 zhao users 4.1K Jan 19 10:40 6-name2semantic.tsv
drwxr-xr-x 5 zhao users 4.0K Jan 19 10:40 logs_s1

看看6-name2semantic.tsv这个文件不空,里面数据对就能 gpt 微调

selfboot avatar Jan 19 '24 02:01 selfboot

清理训练任务预处理的结果,然后重新生成数据集格式化文件,注意生成后看看文件对不对。

(GPTSoVits) ➜  first git:(main) ✗ ls -alh
total 36K
drwxr-xr-x 6 daemonzhao users 4.0K Jan 19 10:40 .
drwxr-xr-x 3 daemonzhao users 4.0K Jan 19 10:40 ..
-rw-r--r-- 1 daemonzhao users 2.3K Jan 19 10:40 2-name2text.txt
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 3-bert
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 4-cnhubert
drwxr-xr-x 2 daemonzhao users 4.0K Jan 19 10:40 5-wav32k
-rw-r--r-- 1 daemonzhao users 4.1K Jan 19 10:40 6-name2semantic.tsv
drwxr-xr-x 5 daemonzhao users 4.0K Jan 19 10:40 logs_s1

看看6-name2semantic.tsv这个文件不空,里面数据对就能 gpt 微调

是这么个样式,同样的操作,我更换了音源一个可行,一个不可行。 看代码是在 第一步做预处理的时候,cnhubert模型处理音频以后,不满足条件就直接被return掉了。蛮好奇那一步的意义是什么,在网上搜的解释,没理解这一步的原因。 强行注释掉,在后一步的语义提取也会出现无法正确的提取语义编码。

DoubleCake avatar Jan 19 '24 02:01 DoubleCake

遇到了类似的问题,表示对音频要求高。我一个音频可以成功。另外一个音频就不行,遇到了楼上同样的ssl问题

wickedvalley avatar Jan 19 '24 02:01 wickedvalley

遇到了类似的问题,表示对音频要求高。我一个音频可以成功。另外一个音频就不行,遇到了楼上同样的ssl问题

您成功了的音频的编码和格式具体是怎样的?能否用ffmpeg把信息打出来和不行的那个音频对比一下?

breakstring avatar Jan 20 '24 12:01 breakstring

@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗?你们的显卡型号是什么?

RVC-Boss avatar Jan 22 '24 15:01 RVC-Boss

@DoubleCake @wickedvalley 你们都是2-hubert这一步碰到里面没有文件吗?你们的显卡型号是什么?

我是3080Ti,把半精度关闭后就可以了。

breakstring avatar Jan 23 '24 10:01 breakstring

已修复半精度推理导致2步骤无文件导致训练报错的问题。

RVC-Boss avatar Jan 27 '24 07:01 RVC-Boss