FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

训练后的模型文件比原始模型文件大很多

Open lukeewin opened this issue 9 months ago • 13 comments

0. 使用sensevoice中的sh脚本训练后的模型比原始模型大

训练后的模型比原始模型大很多,原始模型不到1GB,微调训练后模型文件达到了2.8GB,请问这个是正常的么?如果要使得训练后的模型大小和原始模型一样,那么我需要修改哪些地址。 谢谢,Thanks

1. 需要使用多少数据集微调才有效果

请问一般要使用多少小时的数据集微调?

2. 微调过程中val/loss曲线一直没有下降

微调过程中val/loss曲线一直没有下降,并且train/loss波动很大,请问这个是lr设置太小了吗?如果使用2000句话微调,那么这个lr应该设置多少,这个值是与batch_size大小有关系吗?训练中这个batch_type推荐使用token还是example或者是length?更推荐使用哪个类型?

lukeewin avatar Mar 27 '25 21:03 lukeewin

我也遇到这个问题。训练结束后是2G多。

martain3 avatar Mar 28 '25 03:03 martain3

你这是没训练完,全部训练完就不会了

kuikui111222 avatar Mar 31 '25 02:03 kuikui111222

你这是没训练完,全部训练完就不会了

训练完了,是比原始模型大很多

lukeewin avatar Mar 31 '25 19:03 lukeewin

佬,这个问题解决了吗?最后用了多少h数据集?

WangFeiji0928 avatar Apr 02 '25 06:04 WangFeiji0928

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

martain3 avatar Apr 08 '25 01:04 martain3

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

你是基于SenseVoiceSmall模型训练的吗?我这边训练结束后没有生成model.pt.avgx文件,生成的文件有model.pt ,model.pt.best和model.pt.epXXX这些文件,但是没有看到model.pt.avgx,并且是已经训练结束了,看训练日志最后在生成model.pt.avg的过程中有报错,报找不到几个model.pt.epXXX文件,我修改了一下源码就可以生成这个avg的模型文件了。请问你这个训练sh脚本的参数是怎么设置的,为啥我使用官方默认的参数在训练结束的时候没有生成model.pt.avg文件呢。 谢谢。

lukeewin avatar Apr 09 '25 09:04 lukeewin

佬,这个问题解决了吗?最后用了多少h数据集?

解决了,也没有完全解决,就是修改了train_ds.py代码,数据集大概755小时吧。

lukeewin avatar Apr 09 '25 09:04 lukeewin

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 https://github.com/modelscope/FunASR/issues/2473#issue-2980764423 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

lukeewin avatar Apr 09 '25 09:04 lukeewin

参考paraformer文件夹里面的finetune.sh里面有avg的参数。

lca0V0 @.***

---原始邮件--- 发件人: @.> 发送时间: 2025年4月9日(周三) 下午5:25 收件人: @.>; 抄送: @.@.>; 主题: Re: [modelscope/FunASR] 训练后的模型文件比原始模型文件大很多 (Issue #2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***> lukeewin left a comment (modelscope/FunASR#2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

martain3 avatar Apr 09 '25 09:04 martain3

参考paraformer文件夹里面的finetune.sh里面有avg的参数。

lca0V0 @.***

---原始邮件--- 发件人: @.> 发送时间: 2025年4月9日(周三) 下午5:25 收件人: @.>; 抄送: @.@.>; 主题: Re: [modelscope/FunASR] 训练后的模型文件比原始模型文件大很多 (Issue #2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***> lukeewin left a comment (modelscope/FunASR#2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

你说的是https://github.com/modelscope/FunASR/blob/main/examples/industrial_data_pretraining/paraformer/finetune.sh中的++train_conf.avg_nbest_model=10 ,这个参数我在训练SenseVoiceSmall模型的时候也设置了,不过值给的是5,但是还没没有生成model.pt.avg模型文件。

Image

lukeewin avatar Apr 09 '25 09:04 lukeewin

参考paraformer文件夹里面的finetune.sh里面有avg的参数。

lca0V0 @.***

---原始邮件--- 发件人: @.> 发送时间: 2025年4月9日(周三) 下午5:25 收件人: @.>; 抄送: @.@.>; 主题: Re: [modelscope/FunASR] 训练后的模型文件比原始模型文件大很多 (Issue #2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***> lukeewin left a comment (modelscope/FunASR#2457)

你好,我发现训练最终结束后会有model.pt.avgx,这个模型大小和源文件一致,好像是去最佳的X个模型进行参数平均,感觉可以作为最终模型使用。

我训练结束后没有生成这个model.pt.avg文件,会报下面的错误。 #2473 (comment) 请问你有遇到过这问题吗?我记得去年训练paraformer流式模型的时候训练结束后会生成一个模型文件和原始模型文件一样大小的文件model.pt.avg。我的训练已经结束了,但是没有见到有这个模型文件,请问是参数配置问题吗?你是如何配置的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

好像是取得的模型文件不对导致的,看报错好像是这样的。看源码好像是这个key值不对,导致拼接的路径不对,最终导致生成model.pt.avg过程报错。

Image

下面是生成model.pt.avg的源码:

Image

lukeewin avatar Apr 09 '25 09:04 lukeewin

大佬 第二个问题中这些参数你都是咋设置的啊 都是按照官方的默认值设置的嘛 参数太多了 我都搞得有些晕了 还有大佬是只用过train_ds这个训练代码嘛 有没有试过train.py这个啊 就是不带ds的

CUMTduchen avatar Jun 01 '25 06:06 CUMTduchen

我也遇到了这种情况,应该怎么改呀

wwfcnu avatar Sep 28 '25 09:09 wwfcnu