gaochangfeng comments

Repositories
Issues
Comments

Results 12 comments of


                                            gaochangfeng

SenseVoiceSmall微调是否支撑增加事件/情绪/语言类型

> > SenseVoice预留了specialtoken进行功能扩展，使用`[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]`查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展 > > 大佬，我不太理解为什么使用SPECIAL_TOKEN_15之后的token进行扩展呢？ @gaochangfeng 为官方功能扩展预留，且15前部分token曾经使用过但后来废弃，可能对自定义的扩展训练产生影响

SenseVoiceSmall微调是否支撑增加事件/情绪/语言类型

> [@gaochangfeng](https://github.com/gaochangfeng) 请问下如果新增的类型超过了预留词表是要重新训练BPE模型吗？需要重新配置tokenizer来增加新的special token，同样由于词表大小发生了变化，需要修改输出的线性层维度