FunASR
FunASR copied to clipboard
paraformer 220M模型finetune之后有英语的数据识别丢字严重。
我在公开的Paraformer模型finetune了几万小时数据,训练之后结果有英语的数据识别结果丢字很严重。text文件中中文之间、中英之间、英文之间都手动加了空格。(如果不手动添加空格,finetune会跑飞,貌似preprocess并没有起作用,且config.yaml文件里use_preprocessor: true)。
我们的数据中中英文混合的占比较少,有可能是这个原因导致的吗?请问。