CosyVoice 在相同数据上进行微调，25hz模型和50hz差距很大

感谢大佬的工作~ 我用相同的数据在25hz和50hz模型上面做微调，获得了如下的loss图（第一张是50hz，第二张是25hz），我感觉25hz模型过拟合了，您这边能帮我看看吗？ f8143af1753deb7fadd6a98e994562d a41151f68d35a87139d1326808233ee

Oct 14 '24 02:10 Wentao795

你把学习率调低

Oct 14 '24 07:10 v3ucn

你把学习率调低

在验证集，50hz 1e-5 准确率能到0.98。25hz 1e-6 准确率只能到 0.48这样。

Oct 14 '24 08:10 Wentao795

0.98太夸张了，准备至少1h的数据，你的数据太少了

Oct 16 '24 05:10 aluminumbox

目前的数据是在1h小时以上的，这个验证集的情况确实很奇怪。目前来看，相同的数据，用不同的模型结果差距很大。

Oct 16 '24 07:10 Wentao795

先看看能不能正常合成，50hz的0.98 acc有点太夸张了，我们libritts示例也就30-40的acc，应该是有问题，检查一下你的token是不是分别用50/25hz tokenizer提取的

Oct 16 '24 07:10 aluminumbox

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

Oct 18 '24 01:10 JohnHerry

先看看能不能正常合成，50hz的0.98 acc有点太夸张了，我们libritts示例也就30-40的acc，应该是有问题，检查一下你的token是不是分别用50/25hz tokenizer提取的

我测试了一下，0.98的loss 50hz模型，结果是正常的。而且，我在做25hz模型的时候，提取也是25hz 的token。

Oct 18 '24 02:10 Wentao795

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

flow 损失是震荡下降的

Oct 18 '24 02:10 Wentao795

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

flow 损失是震荡下降的

flow模型一共训练了多少个步骤呢？是SFT训练还是不依赖基础模型训练的？

Oct 18 '24 03:10 JohnHerry

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

flow 损失是震荡下降的

flow模型一共训练了多少个步骤呢？是SFT训练还是不依赖基础模型训练的？

flow 模型损失是震荡下降，sft 方式训练，epoch 我会挑一个损失比较小的来用

Nov 01 '24 06:11 Wentao795

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

flow 损失是震荡下降的

flow模型一共训练了多少个步骤呢？是SFT训练还是不依赖基础模型训练的？

flow 模型损失是震荡下降，sft 方式训练，epoch 我会挑一个损失比较小的来用

谢谢，我们实验是from scratch的，大概30多万步就差不多可以了。

Nov 01 '24 07:11 JohnHerry

请问有flow模型的训练损失图吗？ flow模型的from scratch训练最后损失大概什么水平？

flow 损失是震荡下降的

flow模型一共训练了多少个步骤呢？是SFT训练还是不依赖基础模型训练的？

flow 模型损失是震荡下降，sft 方式训练，epoch 我会挑一个损失比较小的来用

请教大佬，使用25Hz模型微调时报如下错误，该如何解决呢？ File "/data/miniforge3/envs/cosyvoice/lib/python3.8/site-packages/hyperpyyaml/core.py", line 778, in recursive_update raise KeyError(f"Override '{k}' not found in: {[key for key in d.keys()]}") KeyError: "Override 'hifigan' not found in: ['__set_seed1', '__set_seed2', '__set_seed3', '__set_seed4', 'sample_rate', 'text_encoder_input_size', 'llm_input_size', 'llm_output_size', 'spk_embed_dim', 'llm', 'flow', 'hift', 'parquet_opener', 'get_tokenizer', 'allowed_special', 'tokenize', 'filter', 'resample', 'feat_extractor', 'compute_fbank', 'parse_embedding', 'shuffle', 'sort', 'batch', 'padding', 'data_pipeline', 'train_conf']"

此前使用用样的数据微调50Hz模型是成功的。

Feb 05 '25 08:02 hildazzz

我们也遇到的同样的问题，在数据magic-data进行的微调，出现如上的问题。

Feb 14 '25 07:02 zw76859420

换成libritts下的cosyvoice.yaml就可以训练了

Feb 14 '25 09:02 Shenkailai