FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

微调seaco_paraformer模型时自动结束

Open lukeewin opened this issue 7 months ago • 4 comments

0. 微调热词模型自动结束

我设置了训练轮次为1000次,使用了300多条的数据集微调,下面是我的具体配置参数:

torchrun $DISTRIBUTED_ARGS \
../../../funasr/bin/train_ds.py \
++model="${model_name_or_model_dir}" \
++train_data_set_list="${train_data}" \
++valid_data_set_list="${val_data}" \
++dataset="AudioDatasetHotword" \
++dataset_conf.index_ds="IndexDSJsonl" \
++dataset_conf.data_split_num=1 \
++dataset_conf.batch_sampler="BatchSampler" \
++dataset_conf.batch_size=30000  \
++dataset_conf.sort_size=1024 \
++dataset_conf.batch_type="token" \
++dataset_conf.num_workers=16 \
++train_conf.max_epoch=1000 \
++train_conf.log_interval=1 \
++train_conf.resume=true \
++train_conf.validate_interval=2000 \
++train_conf.save_checkpoint_interval=2000 \
++train_conf.avg_keep_nbest_models_type='loss' \
++train_conf.keep_nbest_models=20 \
++train_conf.avg_nbest_model=10 \
++train_conf.use_deepspeed=false \
++train_conf.deepspeed_config=${deepspeed_config} \
++train_conf.find_unused_parameters=true \
++optim_conf.lr=0.0002 \
++output_dir="${output_dir}" &> ${log_file}

在训练到500多轮次的时候,没有任何报错,自动退出了训练过程。看了一下loss曲线如下:

Image

val/loss曲线变化如下:

Image

然后看lr曲线,一直没有下降,还在一直上升,如下图所示:

Image

请问这个训练中途没有任何报错,自动退出这个是正常的吗?是因为模型收敛自动退出训练过程了吗?希望懂的大佬们可以指点指点,谢谢。

lukeewin avatar Apr 03 '25 20:04 lukeewin

您好~可以看一下log日志,看里面的报错。然后我也在做这个模型的微调,可以一起交流下吗

YMMF007 avatar Apr 08 '25 03:04 YMMF007

您好~可以看一下log日志,看里面的报错。然后我也在做这个模型的微调,可以一起交流下吗

log.txt中没有任何报错

lukeewin avatar Apr 08 '25 19:04 lukeewin

会不会是output_dir里面有之前的训练记录

YMMF007 avatar Apr 09 '25 03:04 YMMF007

我微调acc为啥是0

wjhme avatar Apr 25 '25 15:04 wjhme