sherpa-onnx icon indicating copy to clipboard operation
sherpa-onnx copied to clipboard

请问是否可以返回 SenseVoice 的情感标签

Open wingjoezhou opened this issue 1 year ago • 6 comments

使用 sherpa-onnx + SenceVoice 的onnx vad-with-non-streaming-asr.py 就是 使用 microphone 去 asr

现在是这样 image

原来 SenseVoice 是有情感输出的。 ban_emo_unk:禁用 emo_unk 标签,禁用后所有的句子都会被赋与情感标签。默认 False

是否可以像 SenseVoice 那样,能有开关,输出 情感标签? 毕竟, 情感输出也是 Sensevoice 的一大特色。谢谢。

wingjoezhou avatar Jul 29 '24 05:07 wingjoezhou

https://github.com/k2-fsa/sherpa-onnx/blob/646f99c8701981fa44dc7c5ba59ca5d26f320347/sherpa-onnx/csrc/offline-recognizer-sense-voice-impl.h#L38-L42

请自己修改这个代码,

你需要给 https://github.com/k2-fsa/sherpa-onnx/blob/646f99c8701981fa44dc7c5ba59ca5d26f320347/sherpa-onnx/csrc/offline-stream.h#L19 再加一些 fields

欢迎 PR

除了返回 emotion 标签,你还可以返回 language等信息

csukuangfj avatar Jul 29 '24 05:07 csukuangfj

emmmm.... C 语言不会, 😭

期待其他大侠协助。

wingjoezhou avatar Jul 29 '24 05:07 wingjoezhou

期待ing

20246688 avatar Aug 02 '24 08:08 20246688

@csukuangfj

你好,我看了一下,这里的 src.tokens[i] 并没有大于 24884 的token,是之前的某个地方被“吃”掉了么?麻烦指点一下,我再继续看看。

CleanShot 2024-08-09 at 23 53 14@2x

CleanShot 2024-08-09 at 23 52 48@2x

https://github.com/k2-fsa/sherpa-onnx/blob/646f99c8701981fa44dc7c5ba59ca5d26f320347/sherpa-onnx/csrc/offline-recognizer-sense-voice-impl.h#L38-L42

请自己修改这个代码,

fbzhong avatar Aug 09 '24 15:08 fbzhong

把38和48行的4,改成0即可

csukuangfj avatar Aug 09 '24 15:08 csukuangfj

收到!我来改改,测试好了提个pr

fbzhong avatar Aug 09 '24 16:08 fbzhong

已通过 #1257 解决

csukuangfj avatar Sep 08 '24 09:09 csukuangfj