sherpa-onnx icon indicating copy to clipboard operation
sherpa-onnx copied to clipboard

different performers between zh asr model & zh_en asr model

Open Uniquelock opened this issue 4 months ago • 0 comments

您好!我在尝试用你们提供的中文模型icefall-asr-zipformer-wenetspeech-20230615和multi_zh_en模型以及我自己训练的模型暂且称为mine(中英文的、基于multi_zh_en的recipe训练的;中文数据包括wenetspeech等公开的、英文就一个librispeech、中英文的就一个tal)的时候发现一个现象:单中文的wenetspeech对于短词识别比中英文的好很多;以下是我的测试:

Image

还有一些没有放上来;总的来说icefall-asr-zipformer-wenetspeech-20230615>multi_zh_en>>mine;我训练的是20个epoch,我目前怀疑的是我的训练epoch太少了?我不确定是什么原因引起的,是训练太少的原因还是因为中英文的建模导致的呢?

还有一个现象就是,比如粗粉在一个句子中,mine是可以识别的(ex:我喜欢吃粗粉);但是单说的时候只输出一个很离谱的字我就不是很懂了...

希望我描述清楚了,期待您的回复!

Uniquelock avatar Jul 25 '25 02:07 Uniquelock