FunASR paraformer 220M模型finetune之后有英语的数据识别丢字严重。

paraformer 220M模型finetune之后有英语的数据识别丢字严重。

Open wuxiuzhi738 opened this issue 1 year ago • 1 comments

我在公开的Paraformer模型finetune了几万小时数据，训练之后结果有英语的数据识别结果丢字很严重。text文件中中文之间、中英之间、英文之间都手动加了空格。（如果不手动添加空格，finetune会跑飞，貌似preprocess并没有起作用，且config.yaml文件里use_preprocessor: true）。

Nov 14 '23 08:11 wuxiuzhi738

我们的数据中中英文混合的占比较少，有可能是这个原因导致的吗？请问。

Nov 30 '23 06:11 wuxiuzhi738

FunASR FunASR copied to clipboard

paraformer 220M模型finetune之后有英语的数据识别丢字严重。

FunASR
FunASR copied to clipboard