fish-speech
fish-speech copied to clipboard
SOTA Open Source TTS
在vits微调5个epoch后报错,重新开始微调立即报错 似乎是validation时的问题, 给embedding层传了一个float类型的tensor 命令是 ```bash python fish_speech/train.py --config-name vits_decoder_finetune ``` 修改了yml中的数据集路径以及batch_size pytorch版本2.3.1 cuda12.1 以下是日志 --- >Error executing job with overrides: [] [rank0]: Traceback (most recent call last): [rank0]: File "/home/snowfox/fish_audio/fish_speech/train.py",...
vits微调10000步,合成的声音变成蜂鸣声了。 1000步的时候不会。 这是训练配置:  音频时长:28分钟
Feel free to ask any kind of questions in the issues page, but please use English since other users may find your questions valuable. **Describe the bug** https://github.com/fishaudio/fish-speech/blob/fbe2e3f030d9a2fe5455e56a7a9abb72161f6d0f/install_env.bat#L251-L256 上海交大的pytorch镜像反代似乎不再能够加速下载,从之前的10MB/s变成了现在的20-400kb/s。
在调用tool.api时,明明在post请求中加入了streaming参数,并且格式也是wav 但服务端依旧没有分批次返回音频流,而是全部生成完毕之后才返回,于是找到了tool/api.py 发现,InvokeRequest接收的参数中漏掉了streaming  加上streaming=True之后,api调用正常,能正确返回流式音频数据了
lora二次訓練
參考了pretrain config, 使用lora設置use_speaker: false和較高learning rate合併lora能夠初步說其他語言,但不夠標準。 用其作為基底,繼續用lora以較細緻的設定finetune就失敗了。卡在了完成資料準備,Found 650 groups的字句,沒有任何報錯。
**Describe the bug** I cloned the repository https://github.com/fishaudio/fish-speech.git, ran install_env.bat, and successfully launched the WebUI using start.bat. After selecting any model (VQGAN, VITS, LLAMA) and clicking "Start Training," I encounter...
Feel free to ask any kind of questions in the issues page, but please use English since other users may find your questions valuable. **Describe the bug** A clear and...
在测试这个模型的过程中,发现一些读音错误。例如APP读成aat,推测是由于llama自回归模型的幻觉问题导致。这个问题是否会在更大的llama模型中得到解决或者更多训练数据是否能解决这个问题? 在一些特定领域的术语中,加入特定术语的数据对llama进行微调是否可以缓解这些特定术语的发音错误问题?