gaochangfeng
gaochangfeng
```ctc_logits = self.ctc.log_softmax(encoder_out)``` 第2个token为情感概率分布 https://github.com/FunAudioLLM/SenseVoice/blob/969634be261bf30dc3aea3ba317a45d3882f8c52/model.py#L855
“event_target”: 音频事件,“with_or_wo_itn”:是否对文本进行正则化(添加标点、文字变数字)
#31 #11
> How to implement timestamp function? Would you give me some ideas use the forced_align provided by the torchaudio like: ``` alignment, scores = torchaudio.functional.forced_align(ctc_probs, preds.unsqueeze(0), None, None, blank=0) ```
happy sad angry neutral fearful disgusted surprised unknown,前四个效果较好
ban_emo_unk是强制输出情感而不是禁用情感。情感识别没有增加计算量,手动删除情感标签即可
使用正则表达式或者str.replace()删除即可
> > 使用正则表达式或者str.replace()删除即可 > > 请问一下,这些表情的作用是什么? 声音事件和情感。
the 2nd output token is the event token
SenseVoice预留了specialtoken进行功能扩展,使用```[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]```查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展