SenseVoice icon indicating copy to clipboard operation
SenseVoice copied to clipboard

训练方言数据时acc为0

Open sunneam opened this issue 11 months ago • 11 comments

What is your question?

使用开源方言数据集训练,Loss值很高,验证集效果很差,日志中best acc都是0

Code

image image image

sunneam avatar Jan 07 '25 06:01 sunneam

我也出现了这样的问题,请问您解决了吗?而且我微调保存的模型大小比官方开源的要大,这个知道什么原因吗

Image

YMCVICTOR avatar Feb 18 '25 02:02 YMCVICTOR

我也遇到同样的问题

beer008 avatar Feb 27 '25 12:02 beer008

我这个模型推理的时候能正常输出文本 但是同样数据训练ctc loss很高

YangGuangzhaoJJJacky avatar Apr 22 '25 13:04 YangGuangzhaoJJJacky

我这个模型推理的时候能正常输出文本 但是同样数据训练ctc loss很高

请问你这个问题解决了吗?我也遇到了同样的问题

yuafowo avatar May 01 '25 15:05 yuafowo

就这样训就完了没事训到20几loss我效果就很好了

获取 Outlook for iOShttps://aka.ms/o0ukef


发件人: yuafowo @.> 发送时间: Friday, May 2, 2025 12:47:59 AM 收件人: FunAudioLLM/SenseVoice @.> 抄送: YangGuangzhao @.>; Comment @.> 主题: Re: [FunAudioLLM/SenseVoice] 训练方言数据时acc为0 (Issue #179)

[https://avatars.githubusercontent.com/u/165664790?s=20&v=4]yuafowo left a comment (FunAudioLLM/SenseVoice#179)https://github.com/FunAudioLLM/SenseVoice/issues/179#issuecomment-2845106407

我这个模型推理的时候能正常输出文本 但是同样数据训练ctc loss很高

请问你这个问题解决了吗?我也遇到了同样的问题

― Reply to this email directly, view it on GitHubhttps://github.com/FunAudioLLM/SenseVoice/issues/179#issuecomment-2845106407, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AWSZH7PETRR5GDGMP5S5CR324I627AVCNFSM6AAAAABUXATQXWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDQNBVGEYDMNBQG4. You are receiving this because you commented.Message ID: @.***>

YangGuangzhaoJJJacky avatar May 01 '25 16:05 YangGuangzhaoJJJacky

就这样训就完了没事训到20几loss我效果就很好了

获取 Outlook for iOShttps://aka.ms/o0ukef

请问你在基于方言数据训练时,这个train_text_language.txt标签是给zh值吗?还是自定一个值?

lukeewin avatar May 03 '25 21:05 lukeewin

What is your question?

使用开源方言数据集训练,Loss值很高,验证集效果很差,日志中best acc都是0

Code

image image image

你好大佬,我问问这个要怎么可以自定义方言的语种标签,我使用自定义的语种标签会报错,只有使用默认的标签才没有问题。比如我要训练四川话,那我给train_text_language.txt中的值如果时sichuan然后在训练时就会报错,如果是填写为zh,则不会报错。请问这个训练方言时这个语种的标签如何可以自定义?

lukeewin avatar May 03 '25 23:05 lukeewin

就这样训就完了没事训到20几loss我效果就很好了

获取 Outlook for iOShttps://aka.ms/o0ukef

你好,请问微调方言时,如何设置语种标签呢?我在微调闽南话, 设置成auto或者minnan都会报错

liuxu999 avatar Jun 30 '25 08:06 liuxu999

就这样训就完了没事训到20几loss我效果就很好了 获取 Outlook for iOShttps://aka.ms/o0ukef

请问你在基于方言数据训练时,这个train_text_language.txt标签是给zh值吗?还是自定一个值?

你好,请问微调方言时,如何设置语种标签呢?你解决如何设置语种的标签值了吗

liuxu999 avatar Jun 30 '25 08:06 liuxu999

What is your question?

使用开源方言数据集训练,Loss值很高,验证集效果很差,日志中best acc都是0

Code

image image image

你好,请问微调方言时,如何设置语种标签呢?我在微调闽南话, 设置成auto或者minnan都会报错

liuxu999 avatar Jun 30 '25 08:06 liuxu999

我训练的时候,直接说是不支持接着训练,这个train_conf.resume=true就报错,说没有epoch

wangchao112211 avatar Jul 15 '25 02:07 wangchao112211