FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

SenseVoice微调英文没有空格

Open buaajjg opened this issue 1 month ago • 0 comments
trafficstars

当准备的jsonl 数据中 路径含有 "aishell", 在准备训练数据时会将target 中的空格全部过滤掉, 导致英文文本空格全部丢失,

具体代码在funasr/datasets/audio_datasets/indes_ds.py 第96行

if "aishell" in source: target = target.replace(" ", "") # 可以再加一个关于text_language 是 "zh" 的判断

当有英文训练数据时, 可以修改路径名称规避掉这个问题

buaajjg avatar Sep 30 '25 06:09 buaajjg