GPT-SoVITS
GPT-SoVITS copied to clipboard
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
启用并行推理,和不启用到底哪个**质量高**?或者只是速度快,和界面选项变了,生成的语音都差不多?
请问如何解决?batch_size=40
首先,非常感谢开发者们的辛勤工作,GPT-SoVITS 是一个非常出色的项目! 我在使用过程中发现,当前默认的文本切分策略(例如 sentence4 模式)在处理较长的、包含复杂从句或特定语气的文本时,可能会破坏句子的语义连贯性。该策略主要依赖于标点符号(如逗号、句号、分号等)进行切分,虽然在多数情况下有效,但有时会在不适合停顿的地方强制截断,导致合成的音频听起来不自然,情感和语流被打断。 一个非常典型的例子: 原始文本: “秦plus纯电采用了创新的刀片电池,这种电池有良好的特性,针刺测试中不起火,不冒烟,有效避免了热失控。” 当前实际切分结果: “秦plus纯电采用了创新的刀片电池,这种电池有良好的特性,针刺测试中不起火,不冒烟,” “有效避免了热失控。” 问题分析: 这个切分是问题的完美体现。“有效避免了热失控” 是对前面 “不起火,不冒烟” 等一系列优良特性的直接总结和结果。这是一个非常紧密的因果逻辑链。 当前的切分方式,在“不冒烟”后的逗号处强行截断,导致音频在这里产生一个不自然的停顿。
Loading Text2Semantic weights from GPT_weights/._yicheng-en-v2-e15.ckpt Traceback (most recent call last): File "E:\GPT-SoVITS-v2pro-20250604\GPT-SoVITS-v2pro-20250604\GPT_SoVITS\inference_webui_fast.py", line 144, in tts_pipeline = TTS(tts_config) File "E:\GPT-SoVITS-v2pro-20250604\GPT-SoVITS-v2pro-20250604\GPT_SoVITS\TTS_infer_pack\TTS.py", line 437, in __init__ self._init_models() File "E:\GPT-SoVITS-v2pro-20250604\GPT-SoVITS-v2pro-20250604\GPT_SoVITS\TTS_infer_pack\TTS.py", line 461, in...
- Environment:Win11+WSL2+Rocm 6.2.3 - Device:AMD Radeon RX7900XTX(GFX1100) - Logs: ```bash [rank0]:[W831 16:10:20.914206846 ProcessGroupNCCL.cpp:1250] Warning: WARNING: process group has NOT been destroyed before we destruct ProcessGroupNCCL. On normal program exit, the...
Hi How to run on GPU the api_v2.py and api.py? - I installed CUDA Toolkit and cuDNN installed. - OI installed pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu129 - I...
看了下GPU发现它总是工作一会再停一阵子,干活的时候跑的飞快,但是就只有几秒而已,一停下来,进度就不动了,求大佬告知怎么解决 在我使用官方V2整合包时有这样的警告
尝试从开源数据集精选的5000小时数据从零训练v2ProPlus的sovits模型,遇到了比较明显的杂音/电音问题(中文的问题比英文严重),原始数据集里面是没有这类问题的 训练设置: 1、想着能够兼容历史版本的预训练GPT模型,所以没有把freeze_quantizer设置为False 2、训练数据的有效频谱大都在8k-12k左右,达到16k有效频谱的占比很小 3、用float32训练的,没开half 训练进度: 目前在4张A100上面训练了5天、过了5个epoch,mel loss降到了23左右,不清楚继续训练下去能否进一步下降 这里面的一个可疑点是鉴别器的loss始终没有明显的下降趋势 杂音问题在频谱上主要体现在谐波间的杂音过多、高频部分噪声较多、谐波不连续 目前想到的一个问题原因是预训练的encoder(ssl_proj+vq)不匹配我当前所用训练数据的特性。下面几个问题请教一下大佬 @RVC-Boss 5kh这个数据量下从零训v2ProPlus的sovits大概需要训练多少个epoch、以及mel loss要降到多少音质才会比较理想? 这个杂音问题有什么其他可能的原因吗? 感谢!
在调用api的时候,需要等待前面一个请求执行完毕后,才会执行后面的请求,请问有什么方法可以并行吗?
I heard it can also create emotions in generated text? So all I need it train a model on RVC then use it here?