Speech-AI-Forge ChatTTS emb finetune with `DVAE

TODOs

[ ] Fix the speaker embedding finetuning code https://github.com/lenML/ChatTTS-Forge/blob/318d33f8d0b1451a39b3cbc94debca7f4f21dfca/modules/finetune/train_speaker.py#L15-L26
[ ] Use the encoder in DVAE_full.pt to compute loss
[ ] Add some simple tests

refs: #45

Jul 31 '24 02:07 zhzLuke96

是否打算尝试其他模块的微调？比如decoder部分，谢谢！

Jul 31 '24 02:07 liyuanqi123

是否打算尝试其他模块的微调？比如decoder部分，谢谢！

可能还会有llm模块lora微调，其他的暂时没打算搞

Aug 02 '24 17:08 zhzLuke96

运行 webui.py 报错了

FileNotFoundError: [Errno 2] No such file or directory: './models/ChatTTS/asset/DVAE_full.pt'

看到这两处的配置有提到 DVAE_full.pt

modules/repos_static/ChatTTS/ChatTTS/config/config.py
scripts/dl_chattts.py

但是 https://huggingface.co/spaces/lenML/ChatTTS-Forge/tree/main/models/ChatTTS/asset 这里却没有，请补充 DVAE_full.pt 文件。

Aug 07 '24 08:08 cpken

'./models/ChatTTS/asset/DVAE_full.pt' 从 https://huggingface.co/2Noise/ChatTTS 获得。

Aug 07 '24 08:08 cpken

运行 webui.py 报错了
FileNotFoundError: [Errno 2] No such file or directory: './models/ChatTTS/asset/DVAE_full.pt'
看到这两处的配置有提到 DVAE_full.pt

modules/repos_static/ChatTTS/ChatTTS/config/config.py

scripts/dl_chattts.py

但是 https://huggingface.co/spaces/lenML/ChatTTS-Forge/tree/main/models/ChatTTS/asset 这里却没有，请补充 DVAE_full.pt 文件。

下载模型/更新模型，请使用这个脚本

python -m scripts.dl_chattts --source huggingface

与此 issues 无关的问题请移步 discussions 谢谢

Aug 07 '24 09:08 zhzLuke96

大神，想问个问题：如果是仅仅微调embedding的话，在有/无VAE Encoder权重的情况下，audio CE loss大概多少才能听起来很像本人说话呀？谢谢~

Aug 26 '24 19:08 bokesyo

大神，想问个问题：如果是仅仅微调embedding的话，在有/无VAE Encoder权重的情况下，audio CE loss大概多少才能听起来很像本人说话呀？谢谢~

没有准确的 loss 可以表示训练结束，一个是过拟合问题，一个是频域问题，某些频域是模型的“知识盲区”单单微调 embed 是没法做到"很像"的，所以最终loss也和你的数据集和数据频域有关。一般情况，你可以用几个随机的embed，用来测试你的数据集和当前模型的基础loss大概多少，训练能大幅小于这个基础loss基本上就是有效训练，至于多少loss能很像，这个得慢慢调了。

Aug 27 '24 12:08 zhzLuke96

此特性废弃，本库以后应该也不会支持微调，主要专注于推理提供api

May 09 '25 07:05 zhzLuke96

ChatTTS emb finetune with `DVAE_full.pt`

TODOs