SenseVoice icon indicating copy to clipboard operation
SenseVoice copied to clipboard

为什么使用中文语料微调SenseVoiceSmall后,对其他语种音频进行推理时只能识别为中文

Open yoimiya122 opened this issue 3 months ago • 9 comments

使用了大概800小时左右的中文音频按照readme的步骤进行了微调,测试了中文识别能力后想测试一下对原有的其他语种识别能力是否有影响,结果发现对于日语音频会按照中文进行识别,指定推理时的语种参数也没有效果,请问是因为微调时数据仅有中文造成的影响吗,还是说? 有别的朋友遇到这个问题吗?

yoimiya122 avatar Sep 04 '25 06:09 yoimiya122

mark

coreeey avatar Sep 09 '25 09:09 coreeey

想问下你们训练后的模型大小是多少,我训完之后是2.7G,也没有得到avg相关的文件

wwfcnu avatar Sep 28 '25 10:09 wwfcnu

想问下你们训练后的模型大小是多少,我训完之后是2.7G,也没有得到avg相关的文件

我们也是2.7G,avg相关的文件缺失可能是因为设置的保存检查点太少,你看下日志里面应该是有提示没有找到某些检查点,应该是倒数多少个检查点合并,合并后的检查点倒是大小正常,是900多M来着

yoimiya122 avatar Sep 29 '25 09:09 yoimiya122

保存检查点太少

是不是要改这个 ++train_conf.validate_interval=20000
++train_conf.save_checkpoint_interval=20000 \

wwfcnu avatar Sep 29 '25 09:09 wwfcnu

这两个是保存检查点的步数和验证的步数,应该改动的是++train_conf.keep_nbest_models=20
++train_conf.avg_nbest_model=10 \

yoimiya122 avatar Sep 29 '25 11:09 yoimiya122

这两个是保存检查点的步数和验证的步数,应该改动的是++train_conf.keep_nbest_models=20 ++train_conf.avg_nbest_model=10 \

哦好的,我训练的时候还遇到一个问题就是acc一直是0,不知道是怎么回事

wwfcnu avatar Sep 30 '25 01:09 wwfcnu

这两个是保存检查点的步数和验证的步数,应该改动的是++train_conf.keep_nbest_models=20 ++train_conf.avg_nbest_model=10 \

哦好的,我训练的时候还遇到一个问题就是acc一直是0,不知道是怎么回事

这个好像是sensevoice自己的问题,funasr框架是需要acc这个输出的,但是sensevoice回传的参数里似乎没有这一项,这个应该是正常的,你改成按照loss寻找最佳检查点即可。当然这是我自己的看法,如果有大佬能解释一下为什么sensevoice没有acc的回传最好。关于准确率你可以参考acc_rich。

yoimiya122 avatar Sep 30 '25 01:09 yoimiya122

这两个是保存检查点的步数和验证的步数,应该改动的是++train_conf.keep_nbest_models=20 ++train_conf.avg_nbest_model=10 \

哦好的,我训练的时候还遇到一个问题就是acc一直是0,不知道是怎么回事

这个好像是sensevoice自己的问题,funasr框架是需要acc这个输出的,但是sensevoice回传的参数里似乎没有这一项,这个应该是正常的,你改成按照loss寻找最佳检查点即可。当然这是我自己的看法,如果有大佬能解释一下为什么sensevoice没有acc的回传最好。关于准确率你可以参考acc_rich。

多谢大佬解惑

wwfcnu avatar Sep 30 '25 02:09 wwfcnu

这两个是保存检查点的步数和验证的步数,应该改动的是++train_conf.keep_nbest_models=20 ++train_conf.avg_nbest_model=10 \

哦好的,我训练的时候还遇到一个问题就是acc一直是0,不知道是怎么回事

这个好像是sensevoice自己的问题,funasr框架是需要acc这个输出的,但是sensevoice回传的参数里似乎没有这一项,这个应该是正常的,你改成按照loss寻找最佳检查点即可。当然这是我自己的看法,如果有大佬能解释一下为什么sensevoice没有acc的回传最好。关于准确率你可以参考acc_rich。

多谢大佬解惑

没有没有我也是菜鸟,能帮到你就好啦

yoimiya122 avatar Sep 30 '25 06:09 yoimiya122

您好,我想问一下微调的数据样本如果过长是不是在数据加载的时候会出现加载不出来,我全部的数据都是0.然后音频文件的路径是整个系统的绝对路径吗?还是什么?

cheng-jiru avatar Dec 05 '25 04:12 cheng-jiru