FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

禁用 VAD 模型时 AutoModel 输出了未分句的文本

Open donlon opened this issue 2 weeks ago • 0 comments

❓ Questions and Help

What is your question?

当在 AutoModel 不传入 VAD 模型名,以禁用 VAD 时,输出的文本是未分句的原始输出。但理论上 VAD 应与分句功能独立,禁用后不应影响分句输出才对。

Code

Run w/ vad model

model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4",
                  vad_model="fsmn-vad", vad_model_revision="v2.0.4",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.4",
                  disable_update=True,
                  disable_pbar=True
)
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
            batch_size_s=300,
            return_raw_text=True)
print(res)
[{'key': 'asr_example', 'text': '正是因为存在绝对正义,所以我们接受现实的相对正义,但是不要因为现实的相对正义,我 们就认为这个世界没有正义。因为如果当你认为这个世界没有正义。', 'timestamp': [[430, 670], [670, 810], [810, 1030], [1030, 1130], [1130, 1330], ...}]

Run w/o vad model

model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4",
                  #vad_model="fsmn-vad", vad_model_revision="v2.0.4",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.4",
                  disable_update=True,
                  disable_pbar=True
)
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
            batch_size_s=300,
            return_raw_text=True)
print(res)
[{'key': 'asr_example', 'text': '正 是 因 为 存 在 绝 对 正 义 所 以 我 们 接 受 现 实 的 相 对 正 义 但 是 不 要 因 为 现 实 的 相 对 正 义 我 们 就 认 为 这 个 世 界 没 有 正 义 因 为 如 果 当 你 认 为 这 个 世 界 没 有 正 义', 'timestamp': [[410, 650], [650, 830], [830, 990], [990, 1150], [1150, 1350], ...}]

What's your environment?

  • OS (e.g., Linux): Windows
  • FunASR Version (e.g., 1.0.0): 1.2.7
  • How you installed funasr (pip, source): pip

donlon avatar Nov 14 '25 16:11 donlon