FunASR
FunASR copied to clipboard
SenseVoice微调英文没有空格
trafficstars
当准备的jsonl 数据中 路径含有 "aishell", 在准备训练数据时会将target 中的空格全部过滤掉, 导致英文文本空格全部丢失,
具体代码在funasr/datasets/audio_datasets/indes_ds.py 第96行
if "aishell" in source: target = target.replace(" ", "") # 可以再加一个关于text_language 是 "zh" 的判断
当有英文训练数据时, 可以修改路径名称规避掉这个问题